数据库查询优化器的艺术:原理解析与SQL性能优化 附下载地址

随着数据库系统应用的广泛和深入,特别是近年来实际应用中数据库数据量不断增长,形成了所谓的海量数据,进一步的,现在人人都在讲的大数据时代已经到来。数据库系统的性能提升在传统数据库应用中同样受到现实的挑战。

    对于一个选定的数据库管理系统(DBMS)产品,数据库系统性能的表现可以有很大差异,它和 DBMS 参数的选择、数据库模式的设计、应用系统的设计、软硬件环境的配置等多个因素密切相关。这就对数据库管理员(即 DBA)、应用系统分析和设计人员提出了要求,要求他们能够根据实际的应用环境、应用需求结合 DBMS 查询优化技术找到提升系统性能的方法或解决方案。

 

关注公众号【互联互通社区】,回复【数据库查询优化器】获取全部内容

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
数据库系统之查询处理与优化 查询处理的过程 第⼀步 就是语法分析器与翻译器处理,对SQL查询语句进⾏语法验证,保证查询语句的正确性,然后将SQL查询语句翻译为可使⽤的形式 第⼆步 是将SQL查询语句翻译为系统对应的内部表⽰形式,即关系代数表达式 第三步 就是对关系代数表达式进⾏优化,找出最优的效率最⾼的关系代数表达式 第四步 根据这个关系代数表达式制定好执⾏计划(执⾏计划是指执⾏⼀个查询的计算机原语,也就是说它是标注了如何执⾏⼀个或多个关系代数操 作的操作序列) 第五步 执⾏引擎按照执⾏计划进⾏执⾏,对数据库中的表,函数进⾏操作,最终得到查询结果响应给⽤户。 优化器(就是对关系代数的优化,是通过等价变换得到优化执⾏⽅案,也就是操作执⾏的顺序,包含了注释是否需要采⽤索引,具体采⽤的 操作执⾏算法等) 查询代价的度量 1.查询处理的代价可通过该查询对各种资源的使⽤情况进⾏度量 2.然⽽在⼤型数据库系统中,在磁盘存取数据的代价通常是最主要的代价 3.我们可以使⽤传送磁盘块数以及搜索磁盘次数来度量查询计划代价。假设磁盘⼦系统传送⼀个块的数据平均消耗tr秒,磁盘块平均访问时 间(磁盘搜索时间加上旋转延迟)为ts秒,那么依次传送b个块以及执⾏S次磁盘搜索的操作消耗btr+Sts秒 SQL中常见的查询 1.整个表数据全部读取,也就是没有任何条件的查询 2.有⼀个单⼀条件准确定位某⼀个数据记录 3.有⼀个范围条件要定位多个数据记录 4.单个条件和范围条件的结合 选择操作典型实现⽅法 1.简单的全表扫描⽅法 顺序扫描,输出满⾜条件的元组,适合⼩表,不适合⼤表 2.索引(或散列)扫描⽅法 通过索引先找到满⾜条件的元组主码或元组指针,再通过元组指针直接在查询的基本表中找到元组。适合选择条件中的属性上有索引(例如 B+树索引或Hash索引) 选择操作的实现 例:select * from Student,SC where Student.sno=SC.sno 1.嵌套循环⽅法 对外层循环(Student)的每⼀个元组(s),检索内层循环(SC)中的每⼀个元组(sc),检查这两个元组在连接属性(sno)上是否相等,如果满⾜连接 条件,则串接后作为结果输出,知道外层循环表中的元组处理完为⽌。 2.排序-合并⽅法(适合连接的诸表已经排好序的情况) 如果连接的表没有排好序,先对Student表和SC表按连接属性sno排序,取Student表中第⼀个sno,依次扫描SC表中具有相同sno的元 组,当扫描到sno不相同的第⼀个SC元组时,返回Student表扫描它的下⼀个元组,再扫描SC表中具有相同sno的元组,把它们连接起来 重复上述步骤直到Student表扫描完。 3.索引连接⽅法 在SC表上建⽴属性sno的索引,(如果原来没有索引),对Student表中每⼀个元组,由sno值通过SC的索引查找相应的SC元组,把这些SC 元组和Student表中的元组处理完为⽌。 4.Hash Join⽅法 把连接属性作为hash码,⽤同⼀个hash函数把R和S中的元组散列到同⼀个hash⽂件中。 查询的代价主要考虑的内容 在分布式数据库系统中,查询代价除了考虑CPU代价和I/O代价外,由于数据分布在不同的场地上,使得查询处理中还要考虑站点间传输数 据的代价;分布透明性是指⽤户不需要了解数据分⽚的位置,分⽚的分配位置以及数据复制的过程;分布式查询优化⼀般需要考虑操作的执 ⾏顺序和数据在不同场地间的传输顺序;执⾏分布式数据库查询时,导致数据传输量⼤的主要原因时数据间的连接操作和并操作。 查询优化 同⼀个SQL查询语句的不同关系代数表达式,它查询代价时不同的,可以根据关系代数表达式的等价转换,将关系代数表达式变成代价较低 的关系代价表达式,来实现查询优化。 查询树和查询执⾏计划之间的区别 查询树不是最优的,不包含实际执⾏时选择的算法,执⾏计划=优化后的查询树+选择的实际执⾏的算法(连接运算是⽤块连接还是散列连 接,是否⽤流⽔线等); 查询执⾏的时候是⽤的执⾏计划,即优化后的查询树加上相应操作的具体算法; 查询树的基本优化策略 选择下移优化策略(优先做选择,后做关系连接,将选择移到靠近关系) 投影下移优化策略(通过等价规则先进⾏投影,去除对查询⽆意义的属性,再做连接) 选择连接顺序优化策略(⼩关系的连接优先,这样做中间结果元组会很少,这个代价也会很低)

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

互联互通社区

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值