MySQL中的全文检索(2)-CSDN博客

本文介绍了全文索引的构建过程，包括关键字选取标准及全文检索实现原理。详细解释了如何构建全文索引并利用B树进行高效检索，同时探讨了关键字的筛选条件及其在自然语言检索中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、全文索引的构建
构建全文索引时把要索引的列连起来（所以不能对其中的某一列进行全文检索）作为一个长的字符串进行索引。构建好的全文索引是一种拥有两层结构的特殊B树索引。第一层是各个关键字(keywords)，第二层是关键字所在的文档指针。如下图：

B-tree里存放着一个指向记录的指针和索引列里每个词的关联权重。在创建全文索引后可以用myisam_ftdump在命令行下查看索引的内容：myisam_ftdump<table_name> <index_num>。产生的输出如310 0.7772509 word，这里的310是数据文件里包含word的记录的位置，0.7772509是用某种方式计算后得出的关联度(具体可参考 storage/myisam/ft_nlq_search.c里的walk_and_match函数，storage/myisam /ft_defs.h里的宏GWS_IN_USE，GWS_PROB, GWS_IDF等)，第三个是词条。

构建好的全文索引里并不存储实际的数据，所以不能用于covering index。
全文索引不会用于排序操作(order by)，但自然语言检索中的相关性(relevance)可用于排序。如：
SELECT id, body, MATCH (title,body) AGAINST ('Securityimplications of running MySQL as root') AS score FROM articles WHERE MATCH(title,body) AGAINS ('Security implications of running MySQL as root');

二、关键字的选取
并不会对索引列里的每个词都建立索引，筛选过程包括去除停用词，去除长度少于ft_min_word_len和大于ft_max_word_len。

三、全文检索实现
首先在全文索引里进行B-tree查找，找到适合的记录的位置，根据存储在树中的每个单独的词的关联度计算出记录的相关度，并根据相关度排序。

四、全文插入实现
当插入一条新的记录时，首先parse记录里的索引列(源文件可参考storage/myisam/ft_parse.c)，把它们分成单独的词，忽略停用词(源文件参考ft_stopwords.c、ft_static.c)和长度不符的词。计算出词频，从而计算出词的权重。然后把记录的位置、词的权重、词插入全文索引(源文件参考ft_update.c)。