搜索中客户的访问日志到底能用来做什么(4)?

质量评测算法(方法)


各种评测算法或方法都离不开用户的目标点击, 比如用户查询一个word,点击的都集中到了第一页的最后一项,那至少说明你这个第一页排序有问题,没有把用户想要的结果最直接的提供给用户(大部分搜索完都只看前几条,觉得不靠谱就会转个查询词再搜或干脆换个搜索引擎)

多说一句:质量评测算法不是主要的,问题是要根据总结的特征修改各引擎数据合并成第一页的展现策略,当然这些个算法或方法能够直观的反映出你这个搜索引擎靠不靠谱

或是你更新某个展现策略的时候,是否真的有积极的改善效果而不是越改越差劲


         MRR算法
描述:MRR是平均排序倒数的简称,对一个搜索词计算第一个相关文档的位置,这个位置的倒数即为这个搜索词的分数,例如一个搜索词,第三个位置的结果最相关,则RR=1/3 = 0.3333, 最终搜索词集合 MRR就是集合RR的算术平均值。
优点:  简单, 对导航类查询词较好
缺点  只考虑了一个位置
MAP 算法
描述:求每个相关内容检索后的准确率的平均值,然后对查询词集合的打分再做算术平均。
  例如,一个搜索词,有 4 个相关网页,位置分别为 1 2 4 7 ,那么这个词的得分为: ( 1/1 + 2/2 + ¾ + 4/7 /4= 0.83
优点:考虑了每个相关内容的位置对总体得分的影响
缺点:只考虑了相关内容的影响
DCG 算法
描述:每条结果的相关性是有等级的,比如好,非常好,不好,非常不好等;要考虑到结果所在的位置,位置越靠前重要程度越高;好结果位置越靠前则奖励越高,坏结果越靠前则惩罚越高。公式为:  DCGp = rel 1+  ∑ reli / logi   2<= i <=p
优点: 评分较为精准, 很符合人的评价思维
缺点:需要人工来确定每个位置的结果的分值,这个就不利于程序进行自动化处理
P@N 算法
描述 : 对特定的查询,考虑位置因素,检测前 N 条结果的准确率,例:对单次搜索结果前 5 篇,如果有 4 篇为相关文档,则 P@5 = 4/5 = 0.8
优点:简单直观
缺点:  结果位置对分值无差异(实际上位置对分数应该有不同的贡献值)



客户端访问日志之相关搜索与广告推荐

待续


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值