php实现tf-idf,xunsearch自定义词库的TF、IDF作用?

最近在弄xunsearch全文检索技术,被他的自定义词库给搞晕了,碰到了几点疑惑,望有大神能给解答一下,感激不尽!!!

1.增加自定义词库后的奇怪现象.

我在数据库中有两条化合物名称的记录,分别是丁二酸和α酮戊二酸二甲酯。在没有加自定义词库的时候,我搜索丁二酸,两个化合物都会被搜出来,搜索α酮戊二酸二甲酯的时候,也会搜索出来两个化合物。然后我在自定义词库中添加了α酮戊二酸二甲酯,再搜索后,只会出现α酮戊二酸二甲酯这一个结果。但是,再往自定义词库中添加丁二酸后,进行搜索,结果两个化合物还是会出来。为什么会这样呢?为此,我还使用getQuery语句获取了查询词,结果是α酮戊二酸二甲酯的返回值是Xapain::Query(Zα酮戊二酸二甲酯:(pos=1)),丁二酸的返回值是Xapian::Query((丁二酸:(pos=1) SYNONYM(丁二:(pos=89) OR 二酸:(pos=90))))。最初我以为是同义词的问题,但是为什么α酮戊二酸二甲酯没有同义词,而丁二酸会产生同义词呢?最重要的是,当我用getAllSynonyms获取同义词列表时,显示的是空!!!求大神解答!

2.自定义词库中的TF、IDF值的作用

DF、IDF只影响最后的相关度评分,而xunsearch底层用的是Xapian,Xapian使用的是BM25算法计算相关度。式子中的IDF和TF是算法根据当前文档计算出来的,为什么还需要我们自定义。有人解释说是为了提高最后搜索的排名,能不能具体举例说明一下为什么会提高了(难道我们自定义TF和IDF之后,xunsearch会直接用我们自定义的TF、IDF计算相关度评分而不是自动从文档中计算?)

回复内容:

最近在弄xunsearch全文检索技术,被他的自定义词库给搞晕了,碰到了几点疑惑,望有大神能给解答一下,感激不尽!!!

1.增加自定义词库后的奇怪现象.

我在数据库中有两条化合物名称的记录,分别是丁二酸和α酮戊二酸二甲酯。在没有加自定义词库的时候,我搜索丁二酸,两个化合物都会被搜出来,搜索α酮戊二酸二甲酯的时候,也会搜索出来两个化合物。然后我在自定义词库中添加了α酮戊二酸二甲酯,再搜索后,只会出现α酮戊二酸二甲酯这一个结果。但是,再往自定义词库中添加丁二酸后,进行搜索,结果两个化合物还是会出来。为什么会这样呢?为此,我还使用getQuery语句获取了查询词,结果是α酮戊二酸二甲酯的返回值是Xapain::Query(Zα酮戊二酸二甲酯:(pos=1)),丁二酸的返回值是Xapian::Query((丁二酸:(pos=1) SYNONYM(丁二:(pos=89) OR 二酸:(pos=90))))。最初我以为是同义词的问题,但是为什么α酮戊二酸二甲酯没有同义词,而丁二酸会产生同义词呢?最重要的是,当我用getAllSynonyms获取同义词列表时,显示的是空!!!求大神解答!

2.自定义词库中的TF、IDF值的作用

DF、IDF只影响最后的相关度评分,而xunsearch底层用的是Xapian,Xapian使用的是BM25算法计算相关度。式子中的IDF和TF是算法根据当前文档计算出来的,为什么还需要我们自定义。有人解释说是为了提高最后搜索的排名,能不能具体举例说明一下为什么会提高了(难道我们自定义TF和IDF之后,xunsearch会直接用我们自定义的TF、IDF计算相关度评分而不是自动从文档中计算?)

本文原创发布php中文网,转载请注明出处,感谢您的尊重!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值