SQL Server 全文索引的硬伤

最新推荐文章于 2022-11-05 14:48:16 发布

moonpure

最新推荐文章于 2022-11-05 14:48:16 发布

阅读量436

点赞数

文章标签： sql server

SQL Server全文索引、 CONTAINS、FREETEXT、CONTAINSTABLE、FREETEXTTABLE等谓词。

想象这样一个场景：在DataBase_name.dbo.Table_name中有一个名为Title（标题）和Contents（内容）的字段，现在需要查询在Title或者Contents中包括“qq”字符的所有记录。

面对这样的一个场景，我们通常都会写这样一个脚本：SELECT * FROM DataBase_name.dbo.Table_name WHERE Title LIKE '%qq%' OR Contents LIKE '%qq%'; 没错，这也是我第一个想到的方法。

但是我们需要思考的是：随着时间的推移，数据会越来越大，那个时候我们该如何提高我们的性能？客户随时都有可能要求加入对Remark（备注）字段的查询，难道我们就应该不厌其烦地修改程序代码？

面对上面的质问，我们需要提醒你的是：①对于这样的查询条件，即使Title和Contents上都有索引，我们也无法使用到索引，因为在 '%qq%'的“qq”前面使用了通配符，所以无法使用到索引；如果查询的条件是'qq%'，那倒是可以利用上索引。②在许多数据库性能调优的文章上都说OR这个谓词可以使用SELECT UNION ALL SELECT这样的方式来提高性能，但是需要提醒大家的是：如果在一条记录中字段Title和Contents都同时存在“中国”字符的话，那么返回的结果就会出现两条相同的记录，如果你希望是唯一的记录，那么这个时候你就要注意了。③其实有些时候，对于and的操作符，我们可以考虑使用：SQL Server 索引中include的魅力（具有包含性列的索引）

现在回到我们上面提出的疑问上，大概这个时候大家都应该想到了数据库的全文索引了。全文索引是一种特殊类型的基于标记的功能性索引，由 Microsoft SQL Server 全文引擎 (MSFTESQL) 服务创建和维护。创建全文索引的过程与创建其他类型的索引的过程差别很大。MSFTESQL 不是基于某一特定行中存储的值来构造 B 树结构，而是基于要索引的文本中的各个标记来创建倒排、堆积且压缩的索引结构。（摘自MSDN）

讲了那么久，硬伤在哪里呢？可能大家都怀疑我是不是标题党了，呵呵，马上就讲到，那就是这个全文索引能解决我们一开始提到的场景吗？回答是否定。为什么呢？因为SQL Server对字符串“tqq.tencent.com”进行分词和倒排索引后，我们是无法通过查询条件‘“*qq*”’来返回上面那条字符串的记录的，这样的查询条件只能查询到类似“qqt.tencent.com”、“www.qq.com”这样的字符串。SQL Server的分词应该是正向最大值的分词方法，它没有把字符串进行反方向再进行一次分词和索引，所以只能查询到词或短语的前缀符合的记录。这一点有可能会被大家所忽略掉。

就针对上面的说法，我们来进行测试一下：