数据科学个人笔记：推荐系统之实验、评测及结构

最新推荐文章于 2022-04-07 09:20:34 发布

SiameseAge

最新推荐文章于 2022-04-07 09:20:34 发布

阅读量1.1k

点赞数

文章标签：推荐系统

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/humothetrader/article/details/81630608

版权

学习项亮《推荐系统实践》笔记，未整理

一、推荐系统实验方式：

1.离线实验：将用户日志整理成标准数据集，划分训练集和测试集，通过离线指标评测。

优点：不需要有对实际系统的控制权，不需要用户参与实验，速度快可以测试大量算法。

缺点：无法计算商业上关心的指标，离线实验的指标和商业指标存在差距。

2.用户调查：让一些真实用户在测试的推荐系统上完成一些任务，观察和记录他们的行为并回答一些问题。分析他么你的行为和答案测试系统的性能。选取的用户要在各种特征上都与真实用户分布尽量相同，并保证双盲实验。

优点：可测用户主观感受相关指标（如惊喜度）。风险低，出现错误后容易弥补。

缺点：成本高，参加人数少，缺乏统计意义。测试环境和真实环境很难相同。

3.在线实验：即ABtest，在完成离线实验和用户调查后使用。通过一定的规则将用户随机分成几组，并对不同组的用户采用不同的算法。

优点：可以公平获得不同算法实际在线时的性能指标，包括商业上关注的指标。

缺点：周期长，必须进行长期的实验才能得到可靠的结果。因此一半不会用AB测试测所有算法，而是测那些用前两种方法筛选出来的。

注意事项：从前端到后端中间有许多层，各层的AB测试要用不同的流量，互相之间正交。用户进入网站时被决定是否需要进行AB测试后就会在流量分配系统中由实验人员对其打上属于哪个测试的标签。同一份流量可以进行多个层的实验，只要每一层使用的流量之间满足正交性即可，也就是Pa被均匀分到Qa和Qb中。

4.LR、GBDT、RF（这三种方法在一些电商推荐里面经常用到）

二、推荐系统的结构（漏斗模型）

第一层：match

1.通过实时U2I和历史U2I进行协同过滤配对，偏好U2I用内容算法（考虑时间筛检）

2.基于规则的热门商品筛选和性价比筛选

3.基于关联规则或监督学习的相关商品配对

第二层：filter

基于规则：已购买、购买力、性别和年龄（通过商品标记）、行为负反馈（很热门或很匹配商品被拒绝）筛选

第三层：rank

根据CTR、CVR、客单价、上新、价格竞争力、售后负反馈指标进行排序。（ctr*cvr*客单价）

第四层：merge

之前几层实时、历史、偏好、热门&性价比分别进行，在这层按照几个模型的进行合并。

第五层：rerank

多样性层面做类目、品牌的打散。

三、评测指标

（一）用户满意度（离线、问卷、在线）：

1.用户满意度：通常通过调查问卷收集感受，涉及到问卷设计的知识。另外在在线系统中可以通过设置用户反馈界面或利用点击率、用户停留时间和转化率等指标来度量。

（二）预测准确度（离线、问卷）：

1.均方根误差RMSE：该指标用于度量评分预测的准确度。RMSE=sqrt(sum(实际评分-预测评分)^2/物品数)。RMSE相对MAE加大了预测不准的评分的惩罚，对系统的评测更加苛刻。

2.平均绝对误差MAE：该指标用于度量评分预测的准确度。MAE=sum|实际评分-预测评分|/物品数

3.准确率Precision：该指标用于度量TopN推荐的准确率。Precision=sum(每个用户实际行为与被推荐物品的交集数量)/sum(每个用户被推荐物品的数量)

4.召回率Recall：该指标用于度量TopN推荐的准确率。Recall=sum(每个用户实际行为与被推荐物品的交集数量)/sum(每个用户实际行为的物品数量)。可以选取不同N下的准确率和召回率，画出准确率/召回率曲线。

（三）覆盖率（离线、问卷、在线）：

1.覆盖率Coverage：描述一个推荐系统对物品长尾的发掘能力。Coverage=(所有用户被推荐物品并集的物品数量)/系统总物品数量。内容提供商会关心这个指标。下面的两个指标对覆盖率进行了更细致的量化。

2.信息熵：通过研究各物品在推荐系统中出现的次数，分布越陡覆盖率越差。信息熵可度量，H=-sum(pi*logpi)。Pi是物品i的流行度除以所有物品流行度之和。

3.基尼系数：G=1/(n-1)*sum[(2j-n-1)*p(ij)]，p(ij)为流行度升序排行第j位的物品的流行度。若推荐系统计算出的流行度的基尼系数相较于用户行为较高则存在系统马太效应。

（四）其他评测指标：

1.多样性Diversity：Diversity=1/用户数*sum[1-[某用户推荐列表中不同物品间的相似度之和/(0.5*|Ru|*(|Ru|-1))]]

2.新颖性：给用户推荐他们没听说过的物品的能力。若推荐的物品平局年流行度越低也可粗略地认为是新颖性较高。

3.惊喜度：推荐结果与用户过去的行为不相同却能让用户满意的能力。

4.信任度：提高用户信任度的方法包括提升透明度（提供推荐解释）或考虑社交网络。

5.实时性：通过推荐列表的变化速率来评测。

6.健壮性：衡量了一个推荐系统抗击作弊的能力，主要利用模拟攻击来评测。在使用数据前清理掉那些疑似攻击的数据，或者设计算法时使用代价较高的用户行为，都能提升推荐系统的健壮性。

7.商业目标：销售额、点击数、展示总数等。

（五）评测注意事项

1.对于离线优化的指标，是应该在给定覆盖率、多样性、新颖性等限制条件下，尽量优化预测准确度。即：

最大化预测准确度

使得覆盖率>A

多样性>B

新颖性>C

2.算法的评测维度：用户、物品、时间，在不同的用户类型、物品类型、时间环境下表现如何。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据科学个人笔记：推荐系统之实验、评测及结构

学习项亮《推荐系统实践》笔记，未整理一、推荐系统实验方式：1.离线实验：将用户日志整理成标准数据集，划分训练集和测试集，通过离线指标评测。优点：不需要有对实际系统的控制权，不需要用户参与实验，速度快可以测试大量算法。缺点：无法计算商业上关心的指标，离线实验的指标和商业指标存在差距。2.用户调查：让一些真实用户在测试的推荐系统上完成一些任务，观察和记录他们的行为并回答一些问...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

SiameseAge 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。