mysql查询多字段in优化_MySQL5.6 单列、多列索引以及IN语句的优化(翻译)

对于key1索引的提取过程如下: 1、执行原来的WHERE从句:

(key1 < 'abc' AND (key1 LIKE 'abcde%' OR key1 LIKE '%b')) OR (key1 < 'bar' AND nonkey = 4) OR (key1 < 'uux' AND key1 > 'z')

2、删除掉nonkey=4和Key LIKE '%b' ,因为他们不能被用来进行范围扫描。删除他们并用TRUE来替代,所以我们在进行范围扫描的时候,不会错过任何一个匹配的行记录,用TRUE替换掉之后,就是:

(key1'z')

3、折叠总是为真或者为假的条件

(key1 LIKE 'abcde%' OR TRUE)

(key1'z')

使用常量替换掉这些条件,就是

(key1 < 'abc' AND TRUE) OR (key1 < 'bar' AND TRUE) OR (FALSE)

删除掉不必要的TRUE和FALSE常量,就会得到

(key1

4、组合重叠的区域到一个区域,最终被用来范围查询的条件如下:

(key1

一般来说(正如上面的例子中所阐述的那样),用来范围查询的条件在执行时并不像WHERE从句的那么严格,MySQL会使用另外的判断会过滤掉那些满足范围查询条件但却不满足WHERE条件的行记录。

范围查询提取算法可以处理嵌套了任意深度的AND/OR结构,而且他的输出不依赖于WHERE从句中出现的条件的顺序。

目前,MySQL不支持合并多个索引产生的范围查询的多个区间的方法。要解决此限制,您可以使用相同的SELECT语句,然后进行UNION,除非您使用不同的SELECT语句。

多列索引的范围查询优化

多列索引的范围查询是对单列索引范围查询的扩展,一个多列索引的范围查询将索引行限制在一个或者多个“键元组间隔”。“键元组间隔”通过一组关键元组,使用索引的顺序 来定义。

举例来说,考虑一个多列索引,这个索引被定义为:key1(key_part1,key_part2,key_part3),下面列出了一组按照key_part1为顺序的关键元组。

key_part1  key_part2  key_part3

NULL       1          'abc'

NULL       1          'xyz'

NULL       2          'foo'

1         1          'abc'

1         1          'xyz'

1         2          'abc'

2         1          'aaa'

条件key_part1 = 1 定义了下面这个区间:

这个区间覆盖了上述数据集中的第4、5、6行记录,这个区间可以使用范围查询。相比之下,条件key_part3 = 'abc' 没有定义一个单独的区间,而且不能使用范围查询。下面的描述展示了多列索引的范围条件使用的更多细节。

对于HASH索引,每个区间包含恒定的值才能使用,这就意味着区间只能被使用在下面的这种形式:

key_part1 cmp const1

AND key_part2 cmp const2

AND ...

AND key_partN cmp constN;

这里,const1,const2,....都是常量,cmp是任意一个

比较操作符,条件覆盖了所有的索引列,(这就是说,有N个条件,每一个都对应N列索引的一个列),举例来说,下面的就是一个3列的HASH索引的范围条件。

对于一个B+树索引,一个区间通过AND关键字连接即可可用,每个条件使用=,<=>,IS NULL,>,=,<=,!=,<>,BETWEEN, 或者

(但是模式不能以通配符开始)等符号来比较一个索引列和一个常量值。只要能通过一个单独的列元组能决定一个完整的行记录,而这个行记录匹配这个条件(或者两个区间如果<>或者!=使用),这个区间就会使用。

当比较操作符是时,优化器会尝试去使用一些额外的列来决定区间。如果操作符是>,=,<=,!=,<>,BETWEEN, 或者

,优化器将不会这么做。对于下面的表达式,优化器会使用第一个比较式的‘=’,也会使用第二个比较式的‘>=’ ,但是不会考虑更多列,而且从来不会使用第三个表达式去构造区间。key_part1='foo'AND key_part2>= 10 AND key_part3>10

单独的区间就是:

('foo',10,-inf)

这就是说创建的区间包含的行记录可能会多于初始的条件所对应的行记录,比如,前面的区间包括('foo', 11, 0), 但是却不满足原始的条件。如果条件使用OR覆盖了一组行记录,那么这些查询将会包含这些行记录的并集。如果条件使用AND,他们就会产生这些区间的交集,比如说,下面这种使用了覆盖两个列的索引:

(key_part1= 1 AND key_part2<2) OR (key_part1>5)

那么这个区间就是:

(1,-inf)

(5,-inf) 

在这个例子中,第一行会使用一个键列来确定区间的左边界,使用两个键列来确定右边界。而第二行仅仅使用一个 键列。在执行计划的输出中,会使用key_len列来说明使用的键前缀的最大长度。   在某种程度上 ,key_len列会说明使用的键列,但是可能不是你想要的。假设key_part1和key_part2有可能为NULL,那么在下面这种情况下,key_len列会显示两个键的长度:

key_part1>= 1 AND key_part2<2

但是,实际上,这个条件会被转化为:

key_part1>= 1 AND key_part2 IS NOT NULL

多值比较的等值范围优化

考虑这些表达式,col_name是索引列:

col_name IN(val1, ..., valN)

col_name=val1OR ... ORcol_name=valN

如果col_name和括号中的任何一个值相等,那么这个表达式就为真,这些都是等值范围比较(“范围”是个单值),优化器使用以下方法来估算读取满足条件的行记录所付出的的代价:

1、如果col_name是个唯一索引列,那么每个范围的估算都是1,因为对于给定值,最多只有一个行记录满足条件;

2、否则,优化器会使用索引或者索引统计特征对每个范围的行记录数进行估算使用index dives,优化器会在范围的末端使用dive,而且使用范围的行记录数估算。举例来说,表达式col_nameIN (10, 20, 30)有三个等值的范围,优化器会对每个范围进行两次dives来估算,每一对的dives产生给定值的相应的行记录数的估算。index dives 提供了精确的行估算,但是当表达式中需要比较的值的数量增加时,优化器会使用更长的时间来估算,而使用索引特征虽然精确度低一些,但是在估算更大值得列表时会更快一些。当优化器需要从一个估算策略转换到另一个时,可以使用这个系统变量进行配置。如果禁用索引特征,总是使用index dives ,可以设置eq_range_index_dive_limit为0。如果允许使用比较的index dives增长到N 等值范围,可以设置为N+1;

= 0;为了获得更好的估算,您可以使用ANALYZE TABLE.,更新索引统计特征。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值