一、全文索引的构建
构建全文索引时把要索引的列连起来(所以不能对其中的某一列进行全文检索)作为一个长的字符串进行索引。构建好的全文索引是一种拥有两层结构的特殊B树索引。第一层是各个关键字(keywords),第二层是关键字所在的文档指针。如下图:
B-tree里存放着一个指向记录的指针和索引列里每个词的关联权重。在创建全文索引后可以用myisam_ftdump在命令行下查看索引的内 容:myisam_ftdump<table_name> <index_num>。产生的输出如310 0.7772509 word,这里的310是数据文件里包含word的记录的位置,0.7772509是用某种方式计算后得出的关联度(具体可参考 storage/myisam/ft_nlq_search.c里的walk_and_match函数,storage/myisam /ft_defs.h里的宏GWS_IN_USE,GWS_PROB, GWS_IDF等),第三个是词条。
构建好的全文索引里并不存储实际的数据,所以不能用于covering index。
全文索引不会用于排序操作(order by),但自然语言检索中的相关性(relevance)可用于排序。如:
SELECT id, body, MATCH (title,body) AGAINST ('Securityimplications of running MySQL as root') AS score FROM articles WHERE MATCH(title,body) AGAINS ('Security implications of running MySQL as root');
二、关键字的选取
并不会对索引列里的每个词都建立索引,筛选过程包括去除停用词,去除长度少于ft_min_word_len和大于ft_max_word_len。
三、全文检索实现
首先在全文索引里进行B-tree查找,找到适合的记录的位置,根据存储在树中的每个单独的词的关联度计算出记录的相关度,并根据相关度排序。
四、全文插入实现
当插入一条新的记录时,首先parse记录里的索引列(源文件可参考storage/myisam/ft_parse.c),把它们分成单独的词,忽略停用词(源文件参考ft_stopwords.c、ft_static.c)和长度不符的词。计算出词频,从而计算出词的权重。然后把记录的位置、词的权 重、词插入全文索引(源文件参考ft_update.c)。