MySQL中的全文检索(2)-CSDN博客

本文链接：https://blog.csdn.net/navygong/article/details/4185965

一、全文索引的构建
构建全文索引时把要索引的列连起来（所以不能对其中的某一列进行全文检索）作为一个长的字符串进行索引。构建好的全文索引是一种拥有两层结构的特殊B树索引。第一层是各个关键字(keywords)，第二层是关键字所在的文档指针。如下图：(不好意思，还没学会怎么插入图片，试了几次都没有成功)

B-tree里存放着一个指向记录的指针和索引列里每个词的关联权重。在创建全文索引后可以用myisam_ftdump在命令行下查看索引的内容：myisam_ftdump <table_name> <index_num>。产生的输出如310 0.7772509 word，这里的310是数据文件里包含word的记录的位置，0.7772509是用某种方式计算后得出的关联度(具体可参考storage/myisam/ft_nlq_search.c里的walk_and_match函数，storage/myisam/ft_defs.h里的宏GWS_IN_USE，GWS_PROB, GWS_IDF等)，第三个是词条。

构建好的全文索引里并不存储实际的数据，所以不能用于covering index。
全文索引不会用于排序操作(order by)，但自然语言检索中的相关性(relevance)可用于排序。如：
SELECT id, body, MATCH (title,body) AGAINST ('Security implications of running MySQL as root') AS score FROM articles WHERE MATCH (title,body) AGAINS ('Security implications of running MySQL as root');

二、关键字的选取
并不会对索引列里的每个词都建立索引，筛选过程包括去除停用词，去除长度少于ft_min_word_len和大于ft_max_word_len。

三、全文检索实现
首先在全文索引里进行B-tree查找，找到适合的记录的位置，根据存储在树中的每个单独的词的关联度计算出记录的相关度，并根据相关度排序。

四、全文插入实现
当插入一条新的记录时，首先parse记录里的索引列(源文件可参考storage/myisam/ft_parse.c)，把它们分成单独的词，忽略停用词(源文件参考ft_stopwords.c、ft_static.c)和长度不符的词。计算出词频，从而计算出词的权重。然后把记录的位置、词的权重、词插入全文索引(源文件参考ft_update.c)。