推荐系统 --- 推荐算法 --- 算法评测

什么才是好的推荐系统

  • 目标
    C在评测一个推荐算法时,需要同时考虑三方的利益,一个好的推荐系统是能够令三方共赢的系统。
  • 一个完整的推荐系统一般存在3个参与方:用户、物品提供者和提供推荐系统的网站。
    • 首先,推荐系统需要满足用户的需求,给用户推荐那些令他们感兴趣的图书。
    • 其次,推荐系统要让各出版社的书都能够被推荐给对其感兴趣的用户,而不是只推荐几个大型出版社的书。
    • 最后,好的推荐系统设计,能够让推荐系统本身收集到高质量的用户反馈,不断完善推荐的质量,增加用户和网站的交互,提高网站的收入。

评测方法

  • 业务规则扫描
    • 业务规则扫描本质上就是传统软件的功能测试。
      • 软规则:会对业务规则违 反情况做一个基线规定,比如触发几率小于万分之一,在扫描测试时统计触发次 数,只要统计触发几率不超过基线,就算是合格。
      • 硬规则:就是一票否决,例如一些业务黑名单,简直就是高压线,测试时碰 不得,碰了就是 Bug,就要想办法修正。
  • 离线评测
    • 特点
      • 优点
        • 低成本、指标可解释
          • 不需要有对实际系统的控制权
          • 不需要用户参与实验
          • 速度快,可以测试大量算法
      • 缺点
        • 数据稀疏性、指标不直观
        • 无法覆盖所有用户,无法代替真实数据
        • 无法计算商业上关心的指标
        • 离线实验的指标和商业指标存在差距
    • 适用场景
      • 科研:首选
      • 商用:离线算法优化
    • 步骤
      • 通过日志系统获得用户行为数据,并按照一定格式生成一个标准的数据集;
      • 将数据集按照一定的规则分成训练集和测试集;
      • 在训练集上训练用户兴趣模型,在测试集上进行预测;
      • 通过事先定义的离线指标评测算法在测试集上的预测结果。
  • 在线评测
    • 特点
      • 优点
        • 数据真实、评测指标直观
      • 缺点
        • 成本高、实验结果不可解释性、周期长、需要大量用户
    • 适用场景
      • 科研:不适合
      • 商用:线上测试
    • 思路
      • A/B测试
        • 基本思路
          • 同时运行两个或两个以上方案
          • 两个方案只有一个变量不同,其他条件相同
          • 有明确的评价指标用于评价两套方案的优劣
          • 试验过程中,同一个用户从始至终都应该只接触一个方案
        • 评测指标
          • 单击率
          • 转化率
  • 用户调查 — 双盲实验
    • 特点
      • 优点
        • 可直观得到用户满意度
      • 缺点
        • 没有准确度等指标、不宜大规模开展
        • 招募测试用户代价较大,很难组织大规模的测试用户,因此会使测试结果的统计意义不足。

评测指标

  • 准确度指标
    • 评分准确度
      • 预测评分准确度
        • 基本思路
          • 最直观评价系统预测评分和用户真实评分差距的指标
        • 算法
          • 平均绝对误差法(MAE)
          • 标准平均绝对误差法
          • 均方根误差法
          • 等等
      • 预测评分关联度
        • 基本思路
          • 预测评分和真实评分未必一定要接近,只要趋势相同就好
        • 算法
          • Pearson积距相关方法
          • Spearman相关方法
          • Kendall’s Tau相关方法
    • 排序准确度
      • 排序准确度
      • 平均准确度指标(MAP)
      • NDCG:一种基于相关度的排序质量评价指标
    • 分类准确度:是否喜欢的二分类
      • 准确率
      • 召回率
      • F1-score
      • AUC指标:衡量多大程度上把用户喜欢的视频和不喜欢的视频进行区别
  • 多样性指标
    • 覆盖率
      • 概述
        • 覆盖的广度,即所有物品是否都有被推荐的机会
      • 预测覆盖率:预测评分的视频占视频总数的比例
      • 推荐覆盖率:用户推荐视频列表长度和视频总数据的比例
      • 类别覆盖率:推荐的视频种类占全部种类的比例
    • 多样性
      • 用户间的多样性:衡量推荐系统对不同用户推荐不同商品的能力
      • 用户内的多样性:衡量推荐系统对一个用户推荐商品的多样性
    • 新颖性
      • 系统向用户推荐非热门非流行影片的能力
      • 计算方法:推荐商品的平均流行程度
    • 失效率。失效率指标衡量推荐不出结果的情况。
    • 更新率。检测推荐结果更新程度。
  • 其他
    • 单击率和转化率
      • 在线评测指标
    • 用户满意度,核心指标,包括两种方式
      • 调查问卷的形式
      • 通过用户行为统计得到
    • 适应性和扩展性
    • 信任度
    • 实时性
    • 健壮性

评测维度

  • 用户维度 主要包括用户的人口统计学信息、活跃度以及是不是新用户等。
  • 物品维度 包括物品的属性信息、流行度、平均分以及是不是新加入的物品等。
  • 时间维度 包括季节,是工作日还是周末,是白天还是晚上等。
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值