搜索中客户的访问日志到底能用来做什么(4)?

最新推荐文章于 2024-04-27 22:59:18 发布

timegoesby_001

最新推荐文章于 2024-04-27 22:59:18 发布

阅读量962

点赞数

分类专栏：大数据处理搜索技术

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cloudusers/article/details/17025395

版权

搜索技术同时被 2 个专栏收录

26 篇文章 0 订阅

订阅专栏

大数据处理

18 篇文章 0 订阅

订阅专栏

质量评测算法（方法）

各种评测算法或方法都离不开用户的目标点击，比如用户查询一个word，点击的都集中到了第一页的最后一项，那至少说明你这个第一页排序有问题，没有把用户想要的结果最直接的提供给用户（大部分搜索完都只看前几条，觉得不靠谱就会转个查询词再搜或干脆换个搜索引擎）

多说一句：质量评测算法不是主要的，问题是要根据总结的特征修改各引擎数据合并成第一页的展现策略，当然这些个算法或方法能够直观的反映出你这个搜索引擎靠不靠谱

或是你更新某个展现策略的时候，是否真的有积极的改善效果而不是越改越差劲

MRR算法

描述：MRR是平均排序倒数的简称，对一个搜索词计算第一个相关文档的位置，这个位置的倒数即为这个搜索词的分数，例如一个搜索词，第三个位置的结果最相关，则RR=1/3 = 0.3333, 最终搜索词集合 MRR就是集合RR的算术平均值。

优点：简单，对导航类查询词较好

缺点只考虑了一个位置

MAP 算法

描述：求每个相关内容检索后的准确率的平均值，然后对查询词集合的打分再做算术平均。

例如，一个搜索词，有 4 个相关网页，位置分别为 1 、 2 、 4 、 7 ，那么这个词的得分为：（ 1/1 + 2/2 + ¾ + 4/7 ） /4= 0.83

优点：考虑了每个相关内容的位置对总体得分的影响

缺点：只考虑了相关内容的影响

DCG 算法

描述：每条结果的相关性是有等级的，比如好，非常好，不好，非常不好等；要考虑到结果所在的位置，位置越靠前重要程度越高；好结果位置越靠前则奖励越高，坏结果越靠前则惩罚越高。公式为： DCGp = rel 1+ ∑ reli / logi （ 2<= i <=p ）

优点：评分较为精准，很符合人的评价思维

缺点：需要人工来确定每个位置的结果的分值，这个就不利于程序进行自动化处理

P@N 算法

描述 : 对特定的查询，考虑位置因素，检测前 N 条结果的准确率，例：对单次搜索结果前 5 篇，如果有 4 篇为相关文档，则 P@5 = 4/5 = 0.8

优点：简单直观

缺点：结果位置对分值无差异（实际上位置对分数应该有不同的贡献值）

客户端访问日志之相关搜索与广告推荐

待续

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。