推荐系统 --- 推荐算法 --- 算法评测

最新推荐文章于 2024-05-18 23:39:11 发布

micklongen

最新推荐文章于 2024-05-18 23:39:11 发布

阅读量595

点赞数

分类专栏：人工智能垂直领域文章标签：推荐算法算法机器学习

本文链接：https://blog.csdn.net/micklongen/article/details/122310511

版权

人工智能垂直领域专栏收录该内容

15 篇文章 0 订阅

订阅专栏

什么才是好的推荐系统

目标
C在评测一个推荐算法时，需要同时考虑三方的利益，一个好的推荐系统是能够令三方共赢的系统。
一个完整的推荐系统一般存在3个参与方：用户、物品提供者和提供推荐系统的网站。
- 首先，推荐系统需要满足用户的需求，给用户推荐那些令他们感兴趣的图书。
- 其次，推荐系统要让各出版社的书都能够被推荐给对其感兴趣的用户，而不是只推荐几个大型出版社的书。
- 最后，好的推荐系统设计，能够让推荐系统本身收集到高质量的用户反馈，不断完善推荐的质量，增加用户和网站的交互，提高网站的收入。

评测方法

业务规则扫描
- 业务规则扫描本质上就是传统软件的功能测试。
  - 软规则：会对业务规则违反情况做一个基线规定，比如触发几率小于万分之一，在扫描测试时统计触发次数，只要统计触发几率不超过基线，就算是合格。
  - 硬规则：就是一票否决，例如一些业务黑名单，简直就是高压线，测试时碰不得，碰了就是 Bug，就要想办法修正。
离线评测
- 特点
  - 优点
    - 低成本、指标可解释
      - 不需要有对实际系统的控制权
      - 不需要用户参与实验
      - 速度快，可以测试大量算法
  - 缺点
    - 数据稀疏性、指标不直观
    - 无法覆盖所有用户，无法代替真实数据
    - 无法计算商业上关心的指标
    - 离线实验的指标和商业指标存在差距
- 适用场景
  - 科研：首选
  - 商用：离线算法优化
- 步骤
  - 通过日志系统获得用户行为数据，并按照一定格式生成一个标准的数据集；
  - 将数据集按照一定的规则分成训练集和测试集；
  - 在训练集上训练用户兴趣模型，在测试集上进行预测；
  - 通过事先定义的离线指标评测算法在测试集上的预测结果。
在线评测
- 特点
  - 优点
    - 数据真实、评测指标直观
  - 缺点
    - 成本高、实验结果不可解释性、周期长、需要大量用户
- 适用场景
  - 科研：不适合
  - 商用：线上测试
- 思路
  - A/B测试
    - 基本思路
      - 同时运行两个或两个以上方案
      - 两个方案只有一个变量不同，其他条件相同
      - 有明确的评价指标用于评价两套方案的优劣
      - 试验过程中，同一个用户从始至终都应该只接触一个方案
    - 评测指标
      - 单击率
      - 转化率
用户调查 — 双盲实验
- 特点
  - 优点
    - 可直观得到用户满意度
  - 缺点
    - 没有准确度等指标、不宜大规模开展
    - 招募测试用户代价较大，很难组织大规模的测试用户，因此会使测试结果的统计意义不足。

评测指标

准确度指标
- 评分准确度
  - 预测评分准确度
    - 基本思路
      - 最直观评价系统预测评分和用户真实评分差距的指标
    - 算法
      - 平均绝对误差法（MAE）
      - 标准平均绝对误差法
      - 均方根误差法
      - 等等
  - 预测评分关联度
    - 基本思路
      - 预测评分和真实评分未必一定要接近，只要趋势相同就好
    - 算法
      - Pearson积距相关方法
      - Spearman相关方法
      - Kendall’s Tau相关方法
- 排序准确度
  - 排序准确度
  - 平均准确度指标（MAP）
  - NDCG：一种基于相关度的排序质量评价指标
- 分类准确度：是否喜欢的二分类
  - 准确率
  - 召回率
  - F1-score
  - AUC指标：衡量多大程度上把用户喜欢的视频和不喜欢的视频进行区别
多样性指标
- 覆盖率
  - 概述
    - 覆盖的广度，即所有物品是否都有被推荐的机会
  - 预测覆盖率：预测评分的视频占视频总数的比例
  - 推荐覆盖率：用户推荐视频列表长度和视频总数据的比例
  - 类别覆盖率：推荐的视频种类占全部种类的比例
- 多样性
  - 用户间的多样性：衡量推荐系统对不同用户推荐不同商品的能力
  - 用户内的多样性：衡量推荐系统对一个用户推荐商品的多样性
- 新颖性
  - 系统向用户推荐非热门非流行影片的能力
  - 计算方法：推荐商品的平均流行程度
- 失效率。失效率指标衡量推荐不出结果的情况。
- 更新率。检测推荐结果更新程度。
其他
- 单击率和转化率
  - 在线评测指标
- 用户满意度，核心指标，包括两种方式
  - 调查问卷的形式
  - 通过用户行为统计得到
- 适应性和扩展性
- 信任度
- 实时性
- 健壮性

评测维度

用户维度主要包括用户的人口统计学信息、活跃度以及是不是新用户等。
物品维度包括物品的属性信息、流行度、平均分以及是不是新加入的物品等。
时间维度包括季节，是工作日还是周末，是白天还是晚上等。

micklongen

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
推荐系统 --- 推荐算法 --- 算法评测

什么才是好的推荐系统目标C在评测一个推荐算法时，需要同时考虑三方的利益，一个好的推荐系统是能够令三方共赢的系统。一个完整的推荐系统一般存在3个参与方：用户、物品提供者和提供推荐系统的网站。首先，推荐系统需要满足用户的需求，给用户推荐那些令他们感兴趣的图书。其次，推荐系统要让各出版社的书都能够被推荐给对其感兴趣的用户，而不是只推荐几个大型出版社的书。最后，好的推荐系统设计，能够让推荐系统本身收集到高质量的用户反馈，不断完善推荐的质量，增加用户和网站的交互，提高网站的收入。评测方法业
复制链接

扫一扫