mysql数据库全文本搜索,MySQL必知必会——第18章全文本搜索读书笔记

最新推荐文章于 2024-04-19 14:33:29 发布

weixin_39715652

最新推荐文章于 2024-04-19 14:33:29 发布

阅读量103

点赞数

文章标签： mysql数据库全文本搜索

如何使用MySQL的全文本搜索功能进行高级的数据查询和选择？

1 what is 全文本搜索？

并非所有引擎都支持全文本搜索。MyISAM支持全文本搜索，InnoDB不支持全文本搜索。

利用通配符匹配文本和利用正则表达式匹配的局限：

①性能：通配符和正则表达式通常要求MySQL尝试匹配表中所有行。由于被搜索行数不断增加，这些搜索可能非常耗时。

②明确控制：通配符和正则表达式匹配很难明确控制匹配什么和不匹配什么。

③智能化的结果：通配符和正则表达式匹配提供了非常灵活的搜索，但它们都不能提供一种智能化的选择结果的方法。例如：一个特殊词的搜索将会返回包含该词的所有行，而不区分包含单个匹配的行和包含多个匹配的行。类似，一个特殊词的搜索将不会找出不包含该词但包含其他相关词的行。

所有这些限制以及更多的限制都可以用全文本搜索来解决。

在使用全文本搜索时，MySQL不需要分别查看每个行，不需要分别分析和处理每个词。MySQL创建指令列中各词的一个索引，搜索可以针对这些词进行。

MySQL可以快速有效地决定哪些词匹配(哪些行包含它们)，哪些词不匹配，它们匹配的频率。

2 使用全文本搜索

为了进行全文本搜索，必须索引被搜索的列，而且要随着数据的改动不断地重新索引。

在对表列进行适当设计时，MySQL会自动进行所有的索引和重新索引。

在索引之后，select可以和match()和against()一起使用以实际执行搜索。

(1)启动全文本搜索支持

一般在创建表时启动全文本搜索。

create table语句接受FULLTEXT子句，它给出被索引列的一个逗号分隔的列表。

create table productnotes(

note_id int NOT NULL AUTO_INCREMENT,

prod_id char(10) NOT NULL,

note_date datetime NOT NULL,

note_text text NULL,

PRIMARY KAY(note_id),

FULLTEXT(note_text))

ENGINE = MyISAM;

表productnotes为了进行全文本搜索，在note_text列上建立索引。

这里FULLTEXT索引单个列，如果需要也可以指定多个列。

在定义之后，MySQL自动维护该索引。在增加、更新或删除行时，索引随之自动更新。

可以在创建表时指定FULLTEXT,或者在稍后指定。

不要在导入数据时使用FULLTEXT。更新索引要花时间，虽然不是很多，但毕竟要花时间。如果正在导入数据到一个新表，此时不应该启用FULLTEXT索引。应该首先导入所有数据，然后再修改表，定义FULLTEXT。

(2)进行全文本搜索

在索引之后，使用两个函数match()和against()执行全文本搜索。match()指定被搜索的列，against()指定要使用的搜索表达式。

select note_text

from productnotes

where match(note_text) against('rabbit');

输出结果：

此select语句检索单个列note_text。由于where子句，一个全文本搜索被执行。match(note_text)指示MySQL针对指定的列进行搜索，against(‘rabbit’)指定词rabbit作为搜索文本。由于有两行包含词rabbit,这两个行被返回。

传递给match()的词必须与FULLTEXT()定义中的相同。如果指定多个列，则必须列出它们(而且次序正确)。

搜索不区分大小写，除非使用binary方式，否则全文本搜索不区分大小写。

刚才的搜素可以简单地使用LIKE子句完成：

select note_text

from productnotes

where note_text LIKE '%rabbit%';

上述全文本搜索语句不包含order by子句，则返回以文本匹配的良好程序排序的数据。两个行都包含词rabbit，但包含词rabbit作为第3个词的行的等级比作为第20个词的行高。**全文本搜索的一个重要部分就是对结果排序。**具有较高等级的行先返回(因为这些行可能是你真正想要的行)

下面这个例子可以演示全文本搜索排序是如何工作的：

select note_text,

match(note_text) against('rabbit') as rank

from productnotes;

运行结果如下图：

这里在select而不是where子句中使用match()和against()。这使所有行都被返回(因为没有where子句)。match()和against()用来建立一个计算列，此列包含全文本搜索计算出的等级值。等级由MySQL根据行中词的数目、唯一词的数目、整个索引中词的总数以及包含该词的行的数目计算出来。不包含rabbit的行等级为0，包含词rabbit的两个行每行都一个等级值，文本中词靠前的行的等级值比词靠后的行的等级值高。

上述例子有助于说明全文本搜索如何排除行(排除那些等级为0的行)，如何排序结果(按等级以降序排序)。

如果指定多个搜索项，则包含多数匹配词的那些行将具有比包含较少词的那些行高的等级值。

由于数据是索引的，全文本搜索还相当快。

(3)使用查询扩展

查询扩展用来设法放宽所返回的全文本搜索结果的范围。

在使用查询扩展时，MySQL对数据和索引进行两边扫描来完成搜索：

①首先，进行一个基本的全文本搜索，找出与搜索条件匹配的所有行；

②其次，MySQL检查这些匹配行并选择所有有用的词

③再其次，MySQL再次进行全文本搜索，这次不仅使用原来的条件，而且还使用所有有用的词。

利用查询扩展，能找出可能相关的结果，即使它们并不精确包含所查找的词。

查询扩展只能用于MySQL4.1.1及以上版本。

举例：

首先进行一个简单的全文本搜索，没有查询扩展：

select note_text

from producenotes

where match(note_text) against('anvils');

运行结果：

只有一行包含词anvils，因此只返回一行。

下面是相同的搜索，这次使用查询扩展：

select note_text

from producenotes

where match(note_text) against ('anvils' with query expansion);

运行结果：

这次返回了7行。第一行包含词anvils，因此等级最高。第二行与anvils无关，但因为它包含第一行中的两个词(customer和recommend)，所以也被检索出来。第3行也包含这两个相同的词，但它们在文本中的位置更靠后且分开得更远，因此也包含这一行，但等级为第三。第三行确实也没有涉及anvils。

正如所见，查询扩展极大地增加了返回的行数，但这样做也增加了你实际上并不想要的行的数目。

表中的行越多，使用查询扩展返回的结果越好。

(4)布尔文本搜索

MySQL支持全文本搜索的另外一种形式，称为布尔方式。

以布尔方式，可以提供关于如下内容的细节：

①要匹配的词；

②要排斥的词(如果某行包含这个词，则不返回该行，即使它包含其他指定的词也是如此)；

③排列提示(指定某些词比其他词更重要，更重要的词等级更高)；

④表达式分组；

如下例子演示IN BOOLEAN MODE的作用，举一个简单的例子：

select note_text

from producenotes