[IR课程笔记]Query Refinement and Relevance Feedback

相关反馈的两种类型:

“真实”的相关反馈:

   1. 系统返回结果

   2. 用户提供一些反馈

   3. 系统根据这些反馈,返回一些不同的,更好的结果

“假定”的相关反馈

   1. 系统得到结果但是并不返回结果

   2. 系统根据这些结果改善query

   3. 根据改善后的query得到结果并返回

 

Rocchio's Modified Query

Modified query vector = Original query vector + Mean of relevant documents found by original query - Mean of non-relevant documents found by original query

 

Q0表示原始query

R表示相关文档集

S表示无关文档集

 

Local Context Analysis (LCA)

算法过程:

用户输入一个query,通过这个query来检索文章:找到与这个query最相关的文章,使用一个300个词的滑动窗口,来获取文章。

然后找到候选term:首先对文章进行词性标注,选择所有的名词作为候选term。

计算term的权重:

  

En(c,w)的含义:当c,w相互独立时,同时出现的期望 N*(nw/N)(nc/N)

co_degree为什么要减一? 防止nc非常小的情况。

 

根据权重挑选出新的term 加入query中,完善query,从而得到新的结果。

 

         

 

转载于:https://www.cnblogs.com/leeshum/p/4926459.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值