第九周翻译

聚集索引

聚集索引指示表中数据的物理顺序,表按照聚集索引键进行排序。表只能定义一个聚集索引。

让我们假设您希望在堆表上使用数据创建一个聚集索引。作为第一步,如图2-5所示,SQL Server创建数据的另一个副本,然后根据聚集键的值对数据进行排序。数据页链接在一个双链列表中,其中每个页面都包含指向链中的下一个和前一个页面的指针。这个列表称为索引的叶级,它包含实际的表数据。

注意:页面上的排序顺序由插槽数组控制。页面上的实际数据未排序。

当叶子级别包含多个页面时,SQL Server开始构建索引的中间层,如图2-6所示。

中间层为每个叶级页面存储一行。它存储两条信息:物理地址和索引键在它引用的页面中的最小值。惟一的例外是第一页的第一行,其中SQL Server存储NULL而不是最小索引键值。通过这种优化,当插入表中键值最低的行时,SQL Server不需要更新非叶级行。

中间层的页面也链接到双链列表。SQL Server添加了越来越多的中间层,直到出现只包含单个页面的中间层为止。这个级别称为根级别,它成为索引的入口点,如图2-7所示。

如您所见,索引总是有一个叶级、一个根级和零个或多个中间级。唯一的例外是索引数据适合于单个页面。在这种情况下,SQL Server不创建单独的根级页面,索引只包含单个叶级页面。

索引中的级别数量在很大程度上取决于行和索引键大小。例如,4字节整数列上的索引在中间层和根层上每行需要13个字节。这13个字节由2字节slot-array条目、4字节索引键值、6字节页面指针和1字节行开销组成,这已经足够了,因为索引键不包含可变长度和空列。

因此,每行可以容纳8060个字节/ 13个字节=每页620行。这意味着,使用一个中间层,您可以存储最多620 * 620 = 384,400个叶级页面的信息。如果数据行大小为200字节,那么每个叶级页面可以存储40行,索引中最多可以存储15,376,000行,其中只有三个级别。向索引添加另一个中间级别将覆盖所有可能的整数值。

注意:在现实生活中,索引碎片化会减少这些数字。我们将在第6章讨论索引碎片。

SQL Server可以通过三种不同的方式从索引中读取数据。第一个是有序扫描。假设我们想要从dbo运行SELECT Name。客户通过CustomerId查询订购。索引叶级上的数据已经基于CustomerId列值进行了排序。因此,SQL Server可以从第一个到最后一个页面扫描索引的叶级,并按存储的顺序返回行。

SQL Server从索引的根页面开始,并从那里读取第一行。该行引用中间页,该页具有表中的最小键值。SQL Server读取该页面并重复该过程,直到在叶子级找到第一个页面。然后,SQL Server开始逐个读取行,遍历页面的链接列表,直到所有行都被读取。图2-8说明了这个过程。

值得一提的是,order by子句不是触发有序扫描所必需的。有序扫描只意味着SQL Server根据索引键的顺序读取数据。

SQL Server可以在索引中向前和向后两个方向导航。但是,您必须记住一个重要方面:SQL Server在向后索引扫描期间不使用并行性。

提示:您可以通过检查索引扫描或执行计划中的索引查找操作符属性来检查扫描方向。但是请记住,Management Studio不会在执行计划的图形表示中显示这些属性。您需要打开Properties窗口来查看它,方法是在执行计划中选择操作符并选择View/Properties窗口菜单项,或者按F4键。

SQL Server的企业版有一个名为旋转木马扫描的优化特性,允许多个任务共享同一个索引扫描。假设有会话S1,它在扫描索引。在扫描过程中,另一个会话S2运行一个查询,该查询需要扫描相同的索引。使用旋转木马扫描,S2在当前扫描位置加入S1。SQL Server只读取每个页面一次,将行传递给两个会话。

当S1扫描到达索引的末尾时,S2从索引的开始处开始扫描数据,直到S2扫描开始的地方。旋转木马扫描是另一个例子,说明了为什么不能依赖索引键的顺序,以及为什么在重要的时候应该始终指定order BY子句。

顺序扫描之后的下一个访问方法称为分配顺序扫描。S QL服务器通过IAM页面访问表数据,这与堆表类似。从dbo中选择名称。使用(NOLOCK)查询的客户和图2-10说明了这种方法。图2-11显示了查询执行计划。

不幸的是,当SQL Server使用分配顺序扫描时,很难检测到。即使执行计划中的Ordered属性显示为false,它表示SQL Server不关心是否按索引键的顺序读取行,而不关心是否使用了分配顺序扫描。

分配顺序扫描可以更快地扫描大型表,尽管它的启动成本更高。当表很小时,SQL Server不使用这种访问方法。另一个重要的考虑因素是数据一致性。SQL Server在具有聚集索引的表中不使用转发指针,分配顺序扫描可能产生不一致的结果。由于页分割引起的数据移动,可以跳过或多次读取行。因此,SQL Server通常避免使用分配顺序扫描,除非它以READ UNCOMMITTED或SERIALIZABLE事务隔离级别读取数据。

:我们将在第6章“索引碎片”中讨论页面分割和碎片,并在第3部分“锁定、阻塞和并发”中讨论锁定和数据一致性。

最后一种索引访问方法称为索引查找。从dbo中选择名称。CustomerId介于4和7之间的客户进行查询,图2-12演示了该操作

为了从表中读取行范围,SQL Server需要从范围中找到键值最小的行,即4。SQL Server从根页面开始,其中第二行引用键值最小为350的页面。它大于我们正在寻找的键值(4),SQL Server读取根页面第一行引用的中间层数据页(1:170)。

类似地,中间页面将SQL Server引导到第一个叶级页面(1:176)。SQL Server读取该页,然后读取customerid为4和5的行,最后从第二页读取剩余的两行。

执行计划如图2-13所示。

可以猜到,索引查找比索引扫描更有效,因为SQL Server只处理行和数据页的子集,而不是扫描整个表。

从技术上讲,有两种索引查找操作。第一个称为单例查找,有时称为点查找,其中SQL Server查找并返回一行。您可以以CustomerId = 2谓词的位置为例。另一种索引查找操作称为范围扫描,它要求SQL Server查找键的最低值或最高值,并扫描(向前或向后)一组行,直到到达扫描范围的末尾。CustomerId位于4和7之间的谓词将导致范围扫描。这两种情况都显示为执行计划中的索引查找操作。

正如您所猜测的,范围扫描完全有可能强制SQL Server处理大量甚至所有来自索引的数据页。例如,如果将查询更改为使用WHERE CustomerId > 0谓词,SQL Server将读取所有行/页,即使在执行计划中显示了索引查找操作符。您必须记住这种行为,并始终在查询性能调优期间分析范围扫描的效率。

关系数据库中有一个概念叫做SARGable谓词,它代表S earch

有能力。如果SQL Server可以使用索引查找操作(如果存在索引),则谓词是SARGable。简而言之,当SQL Server可以隔离要处理的单个值或索引键值范围时,谓词是SARGable,从而限制了谓词计算期间的搜索。显然,使用SARGable谓词编写查询并尽可能利用index seek是有益的。

SARGable谓词包括以下操作符:=、>、>=、<、<=、IN、BETWEEN和LIKE(在前缀匹配的情况下)。非sargable操作符包括NOT、<>、LIKE(在非前缀匹配的情况下)和NOT in。

使谓词不可sargable的另一种情况是对表列使用函数或数学计算。SQL Server必须调用该函数,或者为它处理的每一行执行计算。幸运的是,在某些情况下,您可以重构查询,使这些谓词可SARGable。表2-1显示了一些这样的例子。

另一个必须记住的重要因素是类型转换。在某些情况下,可以使用不正确的数据类型使谓词不可sargable。让我们创建一个带有varchar列的表,并用一些数据填充它,如清单2-6所示。

聚集索引键列被定义为varchar,尽管它存储整数值。现在,让我们运行两个select,如清单2-7所示,并查看执行计划。

如图2-14所示,对于integer参数,SQL Server扫描聚集索引,将varchar转换为每一行的整数。在第二种情况下,SQL Server在开始时将integer参数转换为varchar,并使用更高效的聚集索引查找操作。

■提示:注意连接谓词中的列数据类型。隐式或显式数据类型转换会显著降低查询的性能。

您将在unicode字符串参数的情况下观察到非常相似的行为。让我们运行清单2-8所示的查询。图2-15显示了语句的执行计划。

可以看到,unicode字符串参数对于varchar列是不可sargable的。这是一个比看上去要大得多的问题。虽然很少以这种方式编写查询,如清单2-8所示,但是现在大多数应用程序开发环境都将字符串视为unicode。因此,SQL Server客户端库为字符串对象生成unicode (nvarchar)参数,除非参数数据类型被显式指定为varchar。这使得谓词不可sargable,而且由于不必要的扫描,即使索引了varchar列,也会导致性能下降。

■重点:始终在客户端应用程序中指定参数数据类型。例如,在ADO中。使用Parameters.Add (“@ParamName SqlDbType。Varchar、<大小>)。Value = stringVariable而不是

Parameters.Add (“@ParamName”)。Value = stringVariable重载。在ORM框架中使用映射来显式地指定类中的非unicode属性。

值得一提的是,对于nvarchar unicode数据列,varchar参数是可SARGable的。

 

 

### 1XJTLU创业学院(太仓)封面页 **模块代码和名称** | **DTS102TC 使用C++编程** ---|--- 学校名称 | 人工智能与先进计算学院 作业标题 | 课程作业1(个人评估) 提交截止日期 | 2024年10月18日星期五北京时间下午5点(UTC+8) 最终字数 | 不适用 是否同意大学将您的作品匿名用于教学目的,请在此处填写“是”。 | 如果您同意大学将您的作品匿名用于教学目的,请在此处填写“是”。 我已阅读并理解了大学关于抄袭、合谋和伪造数据的政策(可在在线学习商城获取)。参考此政策,我声明: - 我的作品中没有任何抄袭和/或合谋行为。 - 我的作品中没有虚构的数据。 通过将我的作业上传到在线学习商城,我正式声明上述所有信息均真实无误。 ### 打分 —— 教师专用 **学号** | | ---|---|--- 评分阶段 | 评分阶段 | 批改人代码 | 学习成果达成情况(F/P/M/D)(请适当修改) | 最终得分 初评 —— 红笔 | 初评 —— 红笔 | 原始分数已被接受 | 复审 —— 绿笔 | 复审 —— 绿笔 | IM 签字 | (请圈选合适项): Y / N 数据录入和分数计算已由另一教师检查(请圈选): Y 第二评阅人如需 —— 绿笔 | 第二评阅人如需 —— 绿笔 | 可能的学术违规(请勾选合适项) ### 学术办公室专用 接收日期 | 晚交天数 | 晚交罚分 | ☐ 类别A | ☐ 类别A | 总学术违规罚分(A/B/C/D/E,请适当修改) _________________ ---|---|---|---|---|--- | ☐ 类别B | ☐ 类别B | 总学术违规罚分(A/B/C/D/E,请适当修改) _________________ | ☐ 类别C | ☐ 类别C | 总学术违规罚分(A/B/C/D/E,请适当修改) _________________ | ☐ 类别D | ☐ 类别D | 总学术违规罚分(A/B/C/D/E,请适当修改) _________________ | ☐ 类别E | ☐ 类别E | 总学术违规罚分(A/B/C/D/E,请适当修改) _________________ ### DTS102TC 使用C++编程 课程作业1(个人项目评估) **截止日期**: 2024年10月18日星期五北京时间下午5点(UTC+8) **占总成绩比例**: 50% **最高分**: 100分(100% 个人成绩) #### 考核目标: A. 展示对C++编程语言基本原理的知识和理解。 B. 展示对软件开发过程基本知识的理解。 #### 迟交政策: 每超过一个工作日扣总分的5%,最多扣除五个工作日。 #### 注意事项: - 请仔细阅读课程作业说明和要求。不遵循这些说明和要求可能导致失分。 - 作业必须使用MS Word编辑并转换成PDF文档,并通过在线学习商城提交至Gradescope。仅接受电子提交,不接受纸质提交。所有提交的文档应为英文。 - 提交后请下载文件并确认其可读性。文件在上传过程中可能因网络连接缓慢等原因而损坏,但学生有责任确保提交的功能性和正确性。 - 请从在线学习商城下载源代码模板。不要更改每个代码脚本的文件名。 - 严格遵守学术诚信政策。 ### 概述 本次任务的目的是获得C++编程和软件开发技能的经验。您需要编写C++程序来解决每个问题。对于每个问题,您需要编写代码以显示与示例运行相同的结果。提交代码至Gradescope进行测试。此外,您还需要在报告中为每个问题写一段简短的描述,分析方法并讨论结果及测试用例。代码质量,如变量命名规则和函数注释,也将被评估。 ### 问题 1. 金融应用:未来投资价值(10分) 编写一个程序,输入投资额、年利率和年限,计算并显示未来投资价值,公式如下: \[ \text{futureInvestmentValue} = \text{investmentAmount} \times (1 + \text{monthlyInterestRate})^{(\text{numberOfYears} \times 12)} \] 例如,如果您输入金额1000.56,年利率4.25%,年限1年,则未来投资价值为1043.92美元。 **示例运行** ``` 请输入投资额:1000.56 请输入年利率百分比:4.25 请输入年限:1 累积值为:1043.92 ``` ### 问题 2. 科学:一中的某一天(10分) Zeller的同余算法是由Christian Zeller开发的,用于计算一中的某一天。公式如下: \[ h = (q + \left\lfloor \frac{13(m+1)}{5} \right\rfloor + K + \left\lfloor \frac{K}{4} \right\rfloor + \left\lfloor \frac{J}{4} \right\rfloor - 2J) \mod 7 \] 其中: - \( h \) 是一中的某一天(0: 星期六,1: 星期日,2: 星期一,3: 星期二,4: 星期三,5: 星期四,6: 星期五)。 - \( q \) 是月份中的某一天。 - \( m \) 是月份(3: 3月,4: 4月,...,12: 12月)。1月和2月被视为上一年的第13月和第14月。 - \( j \) 是年份除以100的商。 - \( k \) 是世纪年份(即年份模100)。 注意:所有除法都执行整数除法。 编写一个程序,输入年份、月份和月份中的某一天,显示一中的某一天。 **示例运行 1** ``` 请输入年份(例如2012):2015 请输入月份(1-12):1 请输入月份中的某一天(1-31):25 星期几是:星期日 ``` **示例运行 2** ``` 请输入年份(例如2012):2012 请输入月份(1-12):5 请输入月份中的某一天(1-31):12 星期几是:星期六 ``` **提示**:1月和2月在公式中分别视为13月和14月,因此需要将用户输入的1转换为13,2转换为14,并将年份改为前一年。 ### 问题 3. 排序三个城市(10分) 编写一个程序,输入三个城市名称,并按字母顺序升序排列。城市名称可以包含空格。 **示例运行** ``` 请输入第一个城市:上海 请输入第二个城市:苏州 请输入第三个城市:北京 按字母顺序排列的三个城市是:北京 上海 苏州 ``` ### 问题 4. 验证密码(10分) 某些网站对密码有特定的规则。假设密码规则如下: - 密码至少要有八个字符。 - 密码只能包含字母和数字。 - 密码至少要包含两个数字。 编写一个程序,输入密码并显示有效密码或无效密码。 **示例运行** ``` 请输入密码字符串:DTS102TC 有效密码! 请输入密码字符串:C++ Programming 无效密码! ``` ### 问题 5. 代数:解2×2线性方程组(15分) 您可以使用克拉默法则解以下2×2线性方程组: 编写一个具有以下头文件的函数: ```cpp void solveEquation(double a, double b, double c, double d, double e, double f, double& x, double& y, bool& isSolvable) ``` 如果 \( ad - bc \) 为0,方程无解且 `isSolvable` 应为 `false`。 编写一个程序,输入 \( a, b, c, d, e, f \),并显示结果。如果 \( ad - bc \) 为0,报告“方程无解”。 **示例运行** ``` 请输入 a, b, c, d, e, f:9.0 4.0 3.0 -5.0 -6.0 -21.0 x 是 -2.0 和 y 是 3.0 请输入 a, b, c, d, e, f:1.0 2.0 2.0 4.0 4.0 5.0 方程无解 ``` ### 问题 6. 金融应用:计算未来投资价值(15分) 编写一个函数,给定利率和指定年限,计算未来的投资价值。未来的投资价值按照问题1中的公式确定。 使用以下函数头文件: ```cpp double futureInvestmentValue(double investmentAmount, double monthlyInterestRate, int years) ``` 例如,`futureInvestmentValue(10000, 0.05/12, 5)` 返回 12833.59。 编写一个测试程序,提示用户输入投资额(例如1000)和利率(例如9%),并打印出1到30年的未来价值表,如下所示: **示例运行** ``` 投资金额:1000 年利率:9 年数 未来价值 1 1093.81 2 1196.41 ... 29 13467.25 30 14730.58 ``` ### 问题 7. 统计学:计算平均值和标准差(15分) 应用以下公式计算n个数的标准差: 为了使用该公式计算偏差,您需要用数组存储各个数值,以便在计算平均值之后继续使用。 您的程序应包含以下函数: ```cpp // 计算双精度浮点数组的平均值 double mean(const double x[], int size) // 计算双精度浮点数的偏差 double deviation(const double x[], int size) ``` 编写一个测试程序,输入10个数字并显示平均值和标准差,如下所示: **示例运行** ``` 输入十个数字:1.9 2.5 3.7 2 1 6 3 4 5 2 平均值是 3.11 标准差是 1.55738 ``` ### 问题 8. 马尔可夫矩阵(15分) 如果一个 \( n \times n \) 矩阵的所有元素均为正数且每一列的元素之和为1,则该矩阵称为正马尔可夫矩阵。编写以下函数来检查一个矩阵是否为马尔可夫矩阵: ```cpp const int SIZE = 3; bool isMarkovMatrix(const double m[][SIZE]); ``` 编写一个测试程序,输入一个3×3的双精度浮点矩阵并测试它是否为马尔可夫矩阵。以下是示例运行: **示例运行 1** ``` 输入一个3×3矩阵,逐行输入:0.15 0.875 0.375 0.55 0.005 0.225 0.30 0.12 0.4 这是一个马尔可夫矩阵 ``` **示例运行 2** ``` 输入一个3×3矩阵,逐行输入:0.95 -0.875 0.375 0.65 0.005 0.225 0.30 0.22 -0.4 这不是一个马尔可夫矩阵 ``` ### 提交 每位学生必须提交以下文件: - 报告:一个名为 `Student_ID.pdf` 的文件,包含一封带有个人信息的封面信。这是一份简短的报告,涉及每个问题的程序设计、测试结果和分析评论。报告不得超过10页。 - 代码:一个名为 `Student_ID.zip` 的压缩文件,包括您的程序实现及其所有源代码文件,即 `Question1.cpp`, `Question2.cpp`, `Question3.cpp` 等。您必须在Gradescope上提交这些源代码,即使有些问题尚未解答。 ### 附录:个人评估评分标准 | 任务 | 分值 | 评分标准 | 得分 | | --- | --- | --- | --- | | 问题 1 | 10 | 报告 [5分] <br> • 正确使用计算未来投资价值的公式 [2分] <br> • 清晰地显示计算的未来投资价值,包括美元符号和两位小数 [2分] <br> • 代码清晰简洁 [1分] | 程序执行 [5分] <br> • 测试和执行程序。正确计算并得出给定示例的正确答案 [5分] | | 问题 2 | 10 | 报告 [5分] <br> • 正确实现Zeller的同余算法,包括所有计算和调整 [2分] <br> • 定义一个函数,接受年份、月份和日期作为参数,返回一中的某一天 [2分] <br> • 代码清晰简洁,变量名有意义,有注释 [1分] | 程序执行 [5分] <br> • 测试和执行程序。正确计算并得出给定示例的正确答案 [5分] | | 问题 3 | 10 | 报告 [5分] <br> • 使用适当的排序算法对城市名称进行升序排序,无论大小写 [2分] <br> • 清晰地显示有序的城市名称,包括正确的顺序和首字母大写 [2分] <br> • 代码清晰简洁,变量名有意义,有注释 [1分] | 程序执行 [5分] <br> • 测试和执行程序。正确计算并得出给定示例的正确答案 [5分] | | 问题 4 | 10 | 报告 [5分] <br> • 正确实现密码验证规则,包括长度、字母数字组合和最小数字数量 [2分] <br> • 定义一个函数,接受密码作为参数,返回True表示密码有效,False表示无效 [2分] <br> • 代码清晰简洁,变量名有意义,有注释 [1分] | 程序执行 [5分] <br> • 测试和执行程序。正确计算并得出给定示例的正确答案 [5分] | | 问题 5 | 15 | 报告 [7分] <br> • 正确使用克拉默法则解2×2线性方程组 [2分] <br> • 定义一个函数 `solve_equation()`,带合适的参数(系数、变量和可解标志)和返回类型(void) [2分] <br> • 如果方程有解,显示计算的x和y值;如果没有解,显示相应消息 [2分] <br> • 代码清晰简洁,变量名有意义,有注释 [1分] | 程序执行 [8分] <br> • 测试和执行程序。正确计算并得出给定示例的正确答案 [8分] | | 问题 6 | 15 | 报告 [7分] <br> • 正确实现未来投资价值公式,包括每月利率和年数的计算和调整 [2分] <br> • 定义一个函数 `futureInvestmentValue()`,带合适的参数(投资额、每月利率和年数)和有意义的返回类型(未来价值) [2分] <br> • 显示表格,包含年数和对应的未来投资价值,格式化表头和小数位数 [2分] <br> • 代码清晰简洁,变量名有意义,有注释 [1分] | 程序执行 [8分] <br> • 测试和执行程序。正确计算并得出给定示例的正确答案 [8分] | | 问题 7 | 15 | 报告 [9分] <br> • 正确实现平均值和标准差的公式,包括样本偏差的计算和调整 [2分] <br> • 定义两个函数:`mean()` 用于计算平均值,`deviation()` 用于计算标准差,两者带合适的参数(数值数组和大小)和有意义的返回类型 [4分] <br> • 显示计算的平均值和标准差,标签和格式适当 [2分] <br> • 代码清晰简洁,变量名有意义,有注释 [1分] | 程序执行 [6分] <br> • 测试和执行程序。正确计算并得出给定示例的正确答案 [6分] | | 问题 8 | 15 | 报告 [9分] <br> • 正确实现马尔可夫矩阵的定义,包括检查正元素和列和等于1 [2分] <br> • 定义一个函数 `isMarkovMatrix()`,带合适的参数(矩阵)和有意义的返回类型(布尔值) [4分] <br> • 显示清楚的消息,指示矩阵是否为马尔可夫矩阵 [2分] <br> • 代码清晰简洁,变量名有意义,有注释 [1分] | 程序执行 [6分] <br> • 测试和执行程序。正确计算并得出给定示例的正确答案 [6分] | ### 课程作业结束
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值