Lucene.Net 2.3.1开发介绍 —— 三、索引（五）

最新推荐文章于 2025-04-25 22:38:53 发布

gooddasenlin

最新推荐文章于 2025-04-25 22:38:53 发布

阅读量655

点赞数

分类专栏： Lucene.Net研究文章标签：测试 ibm 微软 google office 文档

Lucene.Net研究专栏收录该内容

20 篇文章

订阅专栏

话接上篇，继续来说权重对排序的影响。从上面的4个测试，只能说是有个直观的理解了。“哦，是！调整权重是能影响排序了，但是好像没办法来分析到底怎么调啊！”。似乎是这样，现在需要把问题放大，加大索引的内容。到博客园新闻区，用zzk找了4篇内容包含“测试”的文章。代码变成 2.1.5

代码2.1.5

OK，测试一下。

搜索词：测试
结果：
最聪明的浏览器和操作系统_得分：0.17                                         //第四条记录，字数最少
微软Office 14即将展开Alpha测试_得分：0.14                                //第一条记录，字数和第三条相差不大
谷歌测试人力翻译服务有利于推广其支付平台_得分：0.13                 //第三条记录，和第一条记录字数差不太多
IBM和微软将测试云计算的新的极限_得分：0.12                              //第二条记录，字数最多
-----------------------------------

可以看出，文档长度，测试都有一定的影响。现在试着把分少的往高调。把第二条记录增加0.1的权重。

搜索词：测试
结果：
最聪明的浏览器和操作系统_得分：0.17
IBM和微软将测试云计算的新的极限_得分：0.15
微软Office 14即将展开Alpha测试_得分：0.14
谷歌测试人力翻译服务有利于推广其支付平台_得分：0.13
-----------------------------------

晕倒，怎么上面两条也变掉了？那是因为Lucene.Net中权重最小的文档是计算其他文档的一个基础。其它文档的分是以这个为基础，算出来的。因此改变最小的会影响好多个。不过这个影响现在并没有影响排序。而再加0.1，就变成了：

跑到第二位去了。可见每增加0.1，会对结果造成很大的变动。而且干扰似乎也不是太大，看来0.1就够了。现在试试把权重还原，然后调整第一条记录的权重。增加0.1后变成：

搜索词：测试
结果：
微软Office 14即将展开Alpha测试_得分：0.17
最聪明的浏览器和操作系统_得分：0.17
谷歌测试人力翻译服务有利于推广其支付平台_得分：0.13
IBM和微软将测试云计算的新的极限_得分：0.12
-----------------------------------

下面的基础值又回去了，而第一条也跑到第一位去了。

现在假设我要把第二条记录调到第一位，其他地方权重全部还原。把第一第三条记录对调一下。嘿嘿，我设置个30，肯定能到第一位了吧！测试结果：

搜索词：测试
结果：
IBM和微软将测试云计算的新的极限_得分：1.00
最聪明的浏览器和操作系统_得分：0.04
微软Office 14即将展开Alpha测试_得分：0.04
谷歌测试人力翻译服务有利于推广其支付平台_得分：0.03
-----------------------------------

是到第一位去了，不过其他文档的得分都快变成0了。原来，在Lucene.Net中，文档的最高评分就是1。如果一旦有文档到了1，那么其他文档都会根据这个1的含金量进行调整。比如你把它的权重调成10000，那么其他的都会变成0，但这并不会影响排序。你要有耐心，一点点调试，就会看到，在文档分接近1的过程中，其他文档的分不会发生改变，而一旦到了1还有加，其他的文档分都会变低。永远不会有两个文档评分都到1。

现在再来试试完全匹配。把第四条记录的内容就换成测试两个字。那么它的评分会高达0.97分。其他值一般需要权重调正到8，才能和它抗衡。调整0.1就会对索引结果产生很大影响，如果设置权重，一般是按一套规则来做的，如果，大家都设置很大的数字，得分就会都很高，对于有时候需要给你的广告客户设置个第一位置来说，就容易产生混乱。混乱的问题呆会再说，现在要说的是字数少的评分太高的问题。有两个办法解决，一个就是降低字数过少内容的权重，但是注意不要设置为0，设置为0就认为是没有包含查询关键字了；另一个办法就是修改评分。修改评分等说到搜索的时候再来讲。

现在再来看看刚才说到的混乱问题，这个问题很重要。如果你要设置一个文档在搜索一个关键字的时候在第一位，你设置了它很高的权重，那么问题也来了，对于其他词，其它它包含的词，它也会跑到前面去。看来把文档的权重设置太高也不好，个人认为以0.1为单位就足够了，当然对于一些应用需要自己把握。比如，对于论坛帖子，一个回复你给它加0.1分也不是个好主意。

以上的讨论都是基于感性的认识，真正要研究，还需要对公式的增长曲线进行严格的分析才能下定论！

那要置顶要怎么办呢？这就要从另外一种设置权重的方法讲起了。