什么才是好的推荐系统
- 目标
C在评测一个推荐算法时,需要同时考虑三方的利益,一个好的推荐系统是能够令三方共赢的系统。 - 一个完整的推荐系统一般存在3个参与方:用户、物品提供者和提供推荐系统的网站。
- 首先,推荐系统需要满足用户的需求,给用户推荐那些令他们感兴趣的图书。
- 其次,推荐系统要让各出版社的书都能够被推荐给对其感兴趣的用户,而不是只推荐几个大型出版社的书。
- 最后,好的推荐系统设计,能够让推荐系统本身收集到高质量的用户反馈,不断完善推荐的质量,增加用户和网站的交互,提高网站的收入。
评测方法
- 业务规则扫描
- 业务规则扫描本质上就是传统软件的功能测试。
- 软规则:会对业务规则违 反情况做一个基线规定,比如触发几率小于万分之一,在扫描测试时统计触发次 数,只要统计触发几率不超过基线,就算是合格。
- 硬规则:就是一票否决,例如一些业务黑名单,简直就是高压线,测试时碰 不得,碰了就是 Bug,就要想办法修正。
- 业务规则扫描本质上就是传统软件的功能测试。
- 离线评测
- 特点
- 优点
- 低成本、指标可解释
- 不需要有对实际系统的控制权
- 不需要用户参与实验
- 速度快,可以测试大量算法
- 低成本、指标可解释
- 缺点
- 数据稀疏性、指标不直观
- 无法覆盖所有用户,无法代替真实数据
- 无法计算商业上关心的指标
- 离线实验的指标和商业指标存在差距
- 优点
- 适用场景
- 科研:首选
- 商用:离线算法优化
- 步骤
- 通过日志系统获得用户行为数据,并按照一定格式生成一个标准的数据集;
- 将数据集按照一定的规则分成训练集和测试集;
- 在训练集上训练用户兴趣模型,在测试集上进行预测;
- 通过事先定义的离线指标评测算法在测试集上的预测结果。
- 特点
- 在线评测
- 特点
- 优点
- 数据真实、评测指标直观
- 缺点
- 成本高、实验结果不可解释性、周期长、需要大量用户
- 优点
- 适用场景
- 科研:不适合
- 商用:线上测试
- 思路
- A/B测试
- 基本思路
- 同时运行两个或两个以上方案
- 两个方案只有一个变量不同,其他条件相同
- 有明确的评价指标用于评价两套方案的优劣
- 试验过程中,同一个用户从始至终都应该只接触一个方案
- 评测指标
- 单击率
- 转化率
- 基本思路
- A/B测试
- 特点
- 用户调查 — 双盲实验
- 特点
- 优点
- 可直观得到用户满意度
- 缺点
- 没有准确度等指标、不宜大规模开展
- 招募测试用户代价较大,很难组织大规模的测试用户,因此会使测试结果的统计意义不足。
- 优点
- 特点
评测指标
- 准确度指标
- 评分准确度
- 预测评分准确度
- 基本思路
- 最直观评价系统预测评分和用户真实评分差距的指标
- 算法
- 平均绝对误差法(MAE)
- 标准平均绝对误差法
- 均方根误差法
- 等等
- 基本思路
- 预测评分关联度
- 基本思路
- 预测评分和真实评分未必一定要接近,只要趋势相同就好
- 算法
- Pearson积距相关方法
- Spearman相关方法
- Kendall’s Tau相关方法
- 基本思路
- 预测评分准确度
- 排序准确度
- 排序准确度
- 平均准确度指标(MAP)
- NDCG:一种基于相关度的排序质量评价指标
- 分类准确度:是否喜欢的二分类
- 准确率
- 召回率
- F1-score
- AUC指标:衡量多大程度上把用户喜欢的视频和不喜欢的视频进行区别
- 评分准确度
- 多样性指标
- 覆盖率
- 概述
- 覆盖的广度,即所有物品是否都有被推荐的机会
- 预测覆盖率:预测评分的视频占视频总数的比例
- 推荐覆盖率:用户推荐视频列表长度和视频总数据的比例
- 类别覆盖率:推荐的视频种类占全部种类的比例
- 概述
- 多样性
- 用户间的多样性:衡量推荐系统对不同用户推荐不同商品的能力
- 用户内的多样性:衡量推荐系统对一个用户推荐商品的多样性
- 新颖性
- 系统向用户推荐非热门非流行影片的能力
- 计算方法:推荐商品的平均流行程度
- 失效率。失效率指标衡量推荐不出结果的情况。
- 更新率。检测推荐结果更新程度。
- 覆盖率
- 其他
- 单击率和转化率
- 在线评测指标
- 用户满意度,核心指标,包括两种方式
- 调查问卷的形式
- 通过用户行为统计得到
- 适应性和扩展性
- 信任度
- 实时性
- 健壮性
- 单击率和转化率
评测维度
- 用户维度 主要包括用户的人口统计学信息、活跃度以及是不是新用户等。
- 物品维度 包括物品的属性信息、流行度、平均分以及是不是新加入的物品等。
- 时间维度 包括季节,是工作日还是周末,是白天还是晚上等。