Lucene.Net 2.3.1开发介绍 —— 三、索引（六）

最新推荐文章于 2024-08-29 16:55:30 发布

gooddasenlin

最新推荐文章于 2024-08-29 16:55:30 发布

阅读量605

点赞数

分类专栏： Lucene.Net研究文章标签： lucene asp.net sql server 文档文档管理

Lucene.Net研究专栏收录该内容

20 篇文章 0 订阅

订阅专栏

2.2 Field的Boost

如果说Document的Boost是一条线，那么Field的Boost则是一个点。怎么理解这个点呢？设置Document的Boost会影响所有字段。在搜索的过程中，一般至少会搜索两个Field，比如同时搜索标题和内容。而Document的Boost将同时影响标题和内容的搜索得分，但是设置Field的Boost则不会有那么大的影响，Field的Boost只会影响一个点。那这个点有什么用呢？

现在来做个假设，假设，现在有一条记录是关于Lucene的，这篇文章讲得很好，我想要让别人搜索Lucene这个关键字的时候，这条记录一定排在前10。怎么办？设置Docuement的Boost？设置得还很高？OK！这篇文章里面也有其他关键字，比如"asp.net","Sql Server"。现在搜索"asp.net"，发现这篇文章也跑到前10了。这可不是我想要的。

怎么办呢?

现在有两个解决办法，一个就是冗余一个Field，里面记录了Tag一类的东西，给这篇文章设置Tag值为“Lucene”，同时在索引tag字段的时候把它的Boost调高。比如代码2.2.1，在添加完文档后把该文档的tag这个Field Boost设置为想要的。

代码2.2.1

当然，这样处理不是很好，一来，增加一个字段，给维护上带来难度，而且很多好文章没tag怎么办，再有就是非站内搜索呢？另一种办法就是设置一个字数相对较少的字段，调高它的Boost。

比如，我现在把Title这个字段的Boost调成1.3,也就是说我搜索的时候，title的权重要比content的高，那么当我标题中含有Lucene的时候，得分总是会偏高，那样，就可以把记录调到前面去了。这里千万不要调高content，如果全部调的话影响也不是太大，但是对于搜索整体的质量有很大影响。为什么这么说呢？因为如果标题里含有一个keyword "a"，那么这篇文章一般有关于这个“a”的内容，但是如果内容里含有“a”而标题没有，非常多的文章实际上都不是讲“a”的。

2.3 怎么有效调整得分

这里只是我的一些调整的经验，其实想一想也就明白了，没什么深奥的。

（1）、首先，标题的权重一定比内容的要高；

（2）、根据实际情况调整权重；

比如，现在要索引论坛的内容，那完全可以设置内容很少的帖子权重非常低，这个时候直接设置Document的权重就行了；而如果这个帖子的回复或者访问量又非常高，那么每个回复或者浏览量，给加0.01的基数，让这个总体量不超过0.2；要是这个帖子是精华贴呢？直接加上0.1吧。

实际的调整过程就是你把各种问题想想全面就好了。

（3）、如果要把一个文档的Document的Boost调得非常高，比如调整成2，那么千万要注意，减少它的内容，内容中出现的词越少越好；

比如，像baidu那种的做个广告，那么就在里面放一个商家买的关键词就行了，其它什么也不要。

（4）、宁可设置Field，比设置Document来得好，设置的方法就不用说啦。

要注意的是，越短的帖子，越要降低它的权重。比如它只有两个字，怎么也要把它的权重调到0.1一下。为什么？因为两个字一般是一个词，这个词如果被搜索，得分就是1，你不调？那不是让水贴浮到最上层了么？

以上都是些经验之谈，大家可以结合实际情况自己做一些调整。经验主义，有错误和不足的地方，大家多包涵，指正，呵呵。

gooddasenlin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lucene.Net 2.3.1开发介绍 —— 三、索引（六）

2.2 Field的Boost如果说Document的Boost是一条线，那么Field的Boost则是一个点。怎么理解这个点呢？设置Document的Boost会影响所有字段。在搜索的过程中，一般至少会搜索两个Field，比如同时搜索标题和内容。而Document的Boost将同时影响标题和内容的搜索得分，但是设置Field的Boost则不会有那么大的影响，Field的Boost只会影响
复制链接

扫一扫

专栏目录