【推荐系统】王树森推荐系统公开课自学笔记8-涨指标的方法

第八章 涨指标的方法


1 概述

1.1 推荐系统的评价指标

  • 日活用户数(DAU)和留存是最核心的指标

  • 目前工业界最常用LT7和LT30衡量留存。

    • 某用户今天( t 0 t_0 t0)登录APP,未来7天( t 0 − t 6 t_0-t_6 t0t6)中4t天登录APP,那么该用户今天的LT7等于4
    • LT增长通常意味着用户体验提升。(除非LT增长,DAU下降)
  • 其他核心指标:用户使用时长、总阅读数/总点击数、总曝光数。

  • 非核心指标:点击率、交互率等等。

  • 对于UGC平台,发布量和发布渗透率也是核心指标。

1.2 涨指标的方法

  • 改进召回模型,添加新的召回模型
  • 改进粗排和精排模型
  • 提升召回、粗排、精排中的多样性
  • 特殊对待i虚拟用户、低活用户等特殊人群
  • 利用关注、转发、评论这三种交互行为

2 召回

  • 双塔模型和Item-to-Item(I2I)是最重要的两类召回模型,占据大部分召回配额
  • 很多小众的模型,占据的配额很少。在召回总量不变的前提下,添加某些召回模型可以提升核心指标
  • 通过添加优质内容池,可以提升核心指标
  • 同一个模型可以用于多个内容池,得到多条召回通道

2.1 双塔模型

2.1.1 优化正样本、负样本
  • 简单正样本:有点击的(用户,物品)二元组
  • 简单负样本:随机组合的(用户,物品)二元组
  • 困难负样本:排序靠后的(用户,物品)二元组
2.2.2 改进神经网络结构
  • Baseline:用户塔和物品塔分别是全连接网络
  • 改进:用深度交叉网络DCN代替全连接网络
  • 改进:在用户塔中使用用户行为序列(last-n)
  • 改进:使用多向量模型代替单向量模型(如标准的双塔模型,二分类任务)-> 用户塔输出多个向量,通过不同向量和物品塔输出的一个向量(一个是为了节省数据库的存储成本)的内积进行预估指标(类似排序中的多目标模型
2.2.3 改进模型的训练方法
  • Baseline:二分类,区分正、负样本
  • 改进:结合二分类、batch内负采样(需要对热门物品做纠偏)
  • 改进:利用自监督学习方法,让冷门物品的embedding学得更好

2.2 Item-to-Item

  • I2I基于相似物品做召回

  • 最常见的用法师U2I2I

  • 如何计算物品相似度?

    • 方法一:ItemCF及其变体(线上同时使用多种I2I模型,各分配一定配额)
    • 方法二:基于物品向量表征,计算向量相似度(双塔模型、图神经网络等等)

2.3 小众模型

2.3.1 类似I2I的模型
  • U2U2I(推荐相似用户喜欢的物品)
  • U2A2I(推荐用户喜欢作者的物品)
  • U2A2A2I(推荐与用户喜欢作者类似的作者的物品)
2.3.2 更复杂的模型
  • Path-based Deep Network(PDN)
  • Deep Retrieval
  • Sparse-Interest Network(SINE)
  • Multi-task Multi-view Graph Representation Learning(M2GRL)

3 排序模型

3.1 精排模型的改进

3.1.1 基座
  • 基座的输入包括离散特征和连续特征,输出一个向量,作为多目标预估的输入。
  • 改进1:基座加宽加深,计算量更大,预测更准确。
  • 改进2:做自动的特征交叉,比如bilinear和LHUC
  • 改进3:特征工程,比如添加统计特征、多模态内容特征等
3.1.2 多目标预估
  • 改进1:增加新的预估目标,并把预估结果加入融合公式。
  • 改进2:MMoE、PLE等结构可能有效,但往往无效。
  • 改进3:纠正position bias可能有效,也可能无效。

3.2 粗排模型的改进

粗排模型的打分量比精排大10被,因此粗排必须够快。

3.2.1 粗排模型
  • 简单模型:多向量双塔模型
  • 复杂模型:三塔模型效果好,但工程实现难度较大
3.2.2 粗精排一致性建模
  • 蒸馏精排训练粗排
    • pointwise蒸馏
      • y y y是用户真实行为, p p p是精排的预估
      • y + p 2 \frac{y+p}{2} 2y+p作为粗排拟合的目标
    • pairwise或listwise蒸馏
      • 给定 k k k个候选物品,按照精排预估做排序。
      • 做learning to ranke(LTR),让粗排拟合物品的序(而非值)
  • 优点:粗精排一致性建模可以提升核心指标。
  • 缺点:如果精排出bug,精排预估值 p p p有偏,会污染粗排训练数据。

3.3 用户行为序列建模

  • 改进1:增加序列长度,让预测更准确,但是会增加计算成本和推理时间。
  • 改进2:筛选的方法,比如用类目、物品向量表征聚类。
  • 改进3:对用户行为序列中的物品,使用ID以外的一些特征。

目前大都沿着SIM的方向发展,让原始序列尽量长,然后做筛选降低序列长度,最后将筛选结果输入DIN。

3.4 在线学习

全量更新 vs 增量更新

  • 在线学习的资源消耗:
    • 既需要在凌晨做全量更新,也需要全天不间断做增量更新。
    • 假设线上有 m m m个模型,其中1个是holdout,一个是推全的模型, m − 2 m-2 m2个测试的新模型。每套在线学习的机器成本都很大,因此 m m m数量很小,制约模型开发迭代的效率

3.5 老汤模型

  • 老汤模型:老模型训练得非常好,很难被超越。
3.5.1 如何快速判断新模型结构是否由于老模型?(只去看结构,老模型训练更久,新模型想要追平比较困难)
  • 对于新、老模型结构,都随机初始化模型全连接层。
  • Embedding可以是随机初始化,也可以复用老模型训练好的参数。
  • n n n天的数据训练新老模型(从旧到新,训练1 epoch)
  • 如果新模型显著优于老模型,新模型很可能更优。
3.5.2 如何更快追平线上的老模型?
  • 方法1:尽可能多地复用老模型训练好的Embedding层(embedding学的比全连接慢)。
  • 方法2:用老模型做teacher,蒸馏新模型。

4 多样性

4.1 排序的多样性

4.1.1 精排多样性
  • 精排阶段,结合兴趣分数和多样性分数对物品 i i i排序
  • 常用MMR、DPP等方法计算多样性分数,精排使用滑动窗口(精排决定最终的曝光,曝光页面上邻近的物品相似度应该小),粗排不适用滑动窗口(考虑整体的多样性)
  • 除了多样性分数,精排还是用打散策略增加多样性
4.1.2 粗排多样性
  • 根据兴趣分数进行排序,将分数最高的部分物品送入粗排。
  • 在剩余的物品中,对每个物品 i i i计算兴趣分数 s i s_i si和多样性分数 d i d_i di,选择综合分数最高的部分物品进入精排。

4.2 召回的多样性

4.2.1 双塔模型:添加噪声
  • 线上做召回时(在计算出用户向量之后,在做ANN检索之前),往用户向量中添加随机噪声
  • 用户的兴趣越窄,添加的噪声需要越强。
  • 添加噪声在推荐准确度和多样性之间进行平衡。
4.2.2 双塔模型:抽样用户行为序列
  • 保留用户行为序列中最近的 r r r个物品( r < < n r<<n r<<n),从剩余 n − r n-r nr个物品中随机抽样 t t t个物品( t < < n t<<n t<<n)。
  • 将得到的 r + t r+t r+t个物品作为用户行为序列,而不是用全部 n n n个物品。

Q:为什么抽样用户行为序列可以涨指标?

A:(1)提升多样性;(2)可以捕捉用户较长时间之前的兴趣。

4.2.3 U2I2I:抽样用户行为序列
  • 种子物品覆盖的类目数可能非常少,且类目不平衡。
  • 做非均匀随机抽样,从 n n n个物品中选出 t t t个,让类目平衡。用抽样得到的 t t t个物品代替U2I2I的种子物品。(多样性提升+覆盖的类目更多)

4.3 探索流量

  • 每个用户曝光的物品中又2%是非个性化的,用作兴趣探索。
  • 维护一个精选内容池,其中物品均为交互率指标高的优质物品。(用高质量弥补兴趣)
  • 提权/强插
  • 兴趣探索在短期内负面影响核心指标,但是长期会带来正面影响。

5 特殊对待特殊用户人群

  • 为什么要特殊对待特殊人群?
    • 新用户、低活用户的行为很少,个性化推荐不推荐。
    • 新用户、低活用户容易流失,要想办法留存。
    • 特殊用户的行为不同于主流用户,基于全体用户行为训练出的模型在特殊用户人群上有偏。

5.1 构造特殊内容池

  • 特殊人群的行为很少,个性化召回不准确(用高质量弥补准确度)。
  • 针对特定人群的特点构造特殊内容池,提升用户满意度。
5.1.1 如何构造特殊内容池
  • 方法一:根据物品获得的交互次数、交互率选择优质物品。

    • 圈定人群,构造内容池。
    • 内容池有弱个性化的效果。内容池需要定期更新。该内容池只对该人群生效。
  • 方法二:做因果推断,判断物品对人群留存率的贡献,根据贡献值选物品。

5.1.2 特殊内容池的召回
  • 双塔模型是个性化的,对于新用户,可能不准,但是可以靠高质量、弱个性化做弥补。

  • 额外的训练代价?No

    • 正常用户,只训练一个双塔模型。
    • 对于新用户,由于历史交互记录少,需要单独训练一个双塔模型。
  • 额外的推理代价?Yes

    • 内容池定期更新,然后做更新ANN检索。
    • 线上做召回时,需要做ANN检索。
    • 特殊内容池很小,所以增加的额外算力不会很大。

5.2 使用特殊排序策略

5.2.1 排除低质量物品
  • 对于特殊人群,业务上只关注留存,不在乎消费(少出广告、甚至不出广告)。
  • 新发布的物品不在新用户、低活用户上做探索,避免伤害用户体验。
5.2.2 差异化的融分公式
  • 新用户、低活用户的点击、交互行为不同于正常用户。
  • 低活用户的人均点击量很小。
    • 融分公式中提高预估点击率的权重。
    • 保留几个曝光坑位给预估点击率最高的几个物品。

5.3 特殊的排序模型

5.3.1 差异化的排序模型
  • 问题:排序模型被主流用户主导,对特殊用户做不准预估。

  • 方法

    • 大模型+小模型
      • 用全体用户行为训练大模型,其预估 p p p拟合用户行为 y y y
      • 用特殊用户的行为训练小模型,小模型的预估 q q q拟合大模型的残差 y − p y-p yp
      • 主流用户只用大模型预估 p p p,特殊用户融合两个模型预估 p + q p+q p+q
    • 融合多个experts,类似MMoE。(小神经网络的输入只有用户特征)
    • 大模型预估之后,用小模型做校准。
      • 大模型做主流用户的预估,小模型输入大模型的输出,做refine。
  • 错误的做法:每个用户人群设计一个大模型(短期有益,长期有害,维护成本高)


6 利用交互行为

  • 如何利用交互行为?
    • 最简单的方法:将模型预估的交互率用于排序。

6.1 关注

6.1.1 关注作者数量对用户留存的价值
  • 用户留存率 r r r与他关注的作者数量 f f f正相关。

  • 如何利用关注关系提升用户留存?

    • 用排序策略提升关注量。

      • 对于用户 u u u,模型预估候选物品 i i i的关注率 p i p_i pi
      • 设用户 u u u已经关注了 f f f个作者。
      • 定义单调递减函数 w ( f ) w(f) w(f),在排序融分公式中添加 w ( f ) ⋅ p i w(f)\cdot p_i w(f)pi,用于促关注。
    • 构造促关注内容池和召回通道

      • 如果用户关注的作者数较小,则对该用户使用该内容池。
6.1.2 粉丝数对促发布的价值
  • 交互可以提升作者发布积极性。
  • 用排序策略帮助低粉新作者涨粉
6.1.3 隐式关注关系
  • 召回通道U2A2I

  • 隐式关注关系:用户 u u u喜欢看作者 a a a发布的物品,但是 u u u并没有关注 a a a

6.2 转发(分享)

6.2.1 促转发(分享回流)

Q:简单提升转发次数是否有效?

A:否。增大融分公式中预估转发率的权重,可以促转发,但是会负面影响点击率和其他交互率。

6.2.2 KOL建模
  • 目标:在不损害点击和其他交互的前提下,尽量多吸引站外流量。

  • **其他平台的Key Opinion Leader(KOL)**可以吸引大量站外流量。

  • 如何判断本平台的用户是不是其他平台的KOL?

    • 该用户历史上的转发能带来多少站外流量。
6.2.3 促转发的策略
  • 识别出站外KOL之后,如何用于排序和召回?
    • 方法一:排序融分公式中添加额外的一项 k u ⋅ p u i k_u\cdot p_{ui} kupui
    • 方法二:构造促转发内容吃和召回通道,对站外KOL生效。

6.3 评论

6.3.1 评论促发布
  • 如果新发布的物品尚未获得很多评论,则对预估评论率提权,让物品尽快获得评论。
6.3.2 评论的其他价值
  • 有些用户喜欢留评论,喜欢跟作者、评论区互动(添加促评论的内容池,有利于提升用户留存)。
  • 有些用户常留高质量评论(点赞量高),高质量评论对作者、其他用户的留存有贡献。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值