MySQL中的全文检索(2)

一、全文索引的构建
    构建全文索引时把要索引的列连起来(所以不能对其中的某一列进行全文检索)作为一个长的字符串进行索引。构建好的全文索引是一种拥有两层结构的特殊B树索引。第一层是各个关键字(keywords),第二层是关键字所在的文档指针。如下图:  

  B-tree里存放着一个指向记录的指针和索引列里每个词的关联权重。在创建全文索引后可以用myisam_ftdump在命令行下查看索引的内 容:myisam_ftdump<table_name> <index_num>。产生的输出如310  0.7772509  word,这里的310是数据文件里包含word的记录的位置,0.7772509是用某种方式计算后得出的关联度(具体可参考 storage/myisam/ft_nlq_search.c里的walk_and_match函数,storage/myisam /ft_defs.h里的宏GWS_IN_USE,GWS_PROB, GWS_IDF等),第三个是词条。

    构建好的全文索引里并不存储实际的数据,所以不能用于covering index。
    全文索引不会用于排序操作(order by),但自然语言检索中的相关性(relevance)可用于排序。如:
    SELECT id, body, MATCH (title,body) AGAINST ('Securityimplications of running MySQL as root') AS score FROM articles WHERE MATCH(title,body) AGAINS ('Security implications of running MySQL as root');

二、关键字的选取
    并不会对索引列里的每个词都建立索引,筛选过程包括去除停用词,去除长度少于ft_min_word_len和大于ft_max_word_len。

三、全文检索实现
    首先在全文索引里进行B-tree查找,找到适合的记录的位置,根据存储在树中的每个单独的词的关联度计算出记录的相关度,并根据相关度排序。

四、全文插入实现
    当插入一条新的记录时,首先parse记录里的索引列(源文件可参考storage/myisam/ft_parse.c),把它们分成单独的词,忽略停用词(源文件参考ft_stopwords.c、ft_static.c)和长度不符的词。计算出词频,从而计算出词的权重。然后把记录的位置、词的权 重、词插入全文索引(源文件参考ft_update.c)。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值