为什么MySQL不适合大数据文本检索

本文探讨了MySQL在海量数据文本检索方面的局限性,指出其架构不适合复杂查询,并解释了加索引并不能完全解决问题,包括索引成本高、最左前缀原则限制以及无法处理模糊查询等。此外,文章提到了搜索引擎如ES在海量数据查询上的高效性,主要归功于倒排索引技术。
摘要由CSDN通过智能技术生成

我们为什么不用MySQL作为大数据文本搜索,而是要选用搜索引擎,跟他们底层采用的结构有关系,接下来我们一起来探索

首先要知道MySQL 架构天生就不适合海量数据查询,它只适合海量数据存储,但无法应对海量数据下各种复杂条件的查询。

有人就说加索引不是可以避免全表扫描,提升查询速度吗,为啥说它不适合海量数据查询呢?

其实是有两个原因:

  • 首先就是加索引确实可以提升查询速度,但是在 MySQL 中加多个索引最终在执行 SQL 的时候它只会选择成本最低的那个索引,如果说没有索引满足搜索条件,那么就会触发全表扫描,而且即便你使用了组合索引,也要符合最左前缀原则才能命中索引。

但是在海量数据多种查询条件下很有可能不符合最左前缀原则而导致索引失效,而且我们知道存储都是需要成本的。

如果针对每一种情况都加索引,以 innoDB 为例,每加一个索引,就会创建一颗 B+ 树。

如果是海量数据,将会增加很大的存储成本,之前就有人反馈说他们公司的某个表实际内容的大小才 10G, 而索引大小却有 30G!这是多么巨大的成本!所以千万不要觉得索引建得越多越好。

假如说你搜索 格力空调 有关的东西 是不是这样搜索的 %格力空调%,最左前缀就是这样的 格力空调%,你后面是什么无所谓,关键前面要匹配上

接下来再来说说他的第二个原因

  • 有些查询条件是 MySQL 加索引都解决不了的,比如我要查询商品中所有 title 带有「格力空调」的关键词,如果你用 MySQL 写,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值