【推荐系统】王树森推荐系统公开课自学笔记8-涨指标的方法

.Tickets.

已于 2024-10-22 16:39:31 修改

阅读量1.1k

点赞数 10

文章标签：笔记推荐算法

于 2024-10-16 14:07:42 首次发布

本文链接：https://blog.csdn.net/qq_51676593/article/details/142980463

版权

第八章涨指标的方法

1 概述

1.1 推荐系统的评价指标

日活用户数（DAU）和留存是最核心的指标
目前工业界最常用LT7和LT30衡量留存。
- 某用户今天（ $t_0$ ）登录APP，未来7天（ $t_0-t_6$ ）中4t天登录APP，那么该用户今天的LT7等于4
- LT增长通常意味着用户体验提升。（除非LT增长，DAU下降）
其他核心指标：用户使用时长、总阅读数/总点击数、总曝光数。
非核心指标：点击率、交互率等等。
对于UGC平台，发布量和发布渗透率也是核心指标。

1.2 涨指标的方法

改进召回模型，添加新的召回模型
改进粗排和精排模型
提升召回、粗排、精排中的多样性
特殊对待i虚拟用户、低活用户等特殊人群
利用关注、转发、评论这三种交互行为

2 召回

双塔模型和Item-to-Item（I2I）是最重要的两类召回模型，占据大部分召回配额
很多小众的模型，占据的配额很少。在召回总量不变的前提下，添加某些召回模型可以提升核心指标
通过添加优质内容池，可以提升核心指标
同一个模型可以用于多个内容池，得到多条召回通道

2.1 双塔模型

2.1.1 优化正样本、负样本

简单正样本：有点击的（用户，物品）二元组
简单负样本：随机组合的（用户，物品）二元组
困难负样本：排序靠后的（用户，物品）二元组

2.2.2 改进神经网络结构

Baseline：用户塔和物品塔分别是全连接网络
改进：用深度交叉网络DCN代替全连接网络
改进：在用户塔中使用用户行为序列（last-n）
改进：使用多向量模型代替单向量模型（如标准的双塔模型，二分类任务）-> 用户塔输出多个向量，通过不同向量和物品塔输出的一个向量（一个是为了节省数据库的存储成本）的内积进行预估指标（类似排序中的多目标模型）

2.2.3 改进模型的训练方法

Baseline：二分类，区分正、负样本
改进：结合二分类、batch内负采样（需要对热门物品做纠偏）
改进：利用自监督学习方法，让冷门物品的embedding学得更好

2.2 Item-to-Item

I2I基于相似物品做召回
最常见的用法师U2I2I
如何计算物品相似度？
- 方法一：ItemCF及其变体（线上同时使用多种I2I模型，各分配一定配额）
- 方法二：基于物品向量表征，计算向量相似度（双塔模型、图神经网络等等）

2.3 小众模型

2.3.1 类似I2I的模型

U2U2I（推荐相似用户喜欢的物品）
U2A2I（推荐用户喜欢作者的物品）
U2A2A2I（推荐与用户喜欢作者类似的作者的物品）

2.3.2 更复杂的模型

Path-based Deep Network（PDN）
Deep Retrieval
Sparse-Interest Network（SINE）
Multi-task Multi-view Graph Representation Learning（M2GRL）

3 排序模型

3.1 精排模型的改进

3.1.1 基座

基座的输入包括离散特征和连续特征，输出一个向量，作为多目标预估的输入。
改进1：基座加宽加深，计算量更大，预测更准确。
改进2：做自动的特征交叉，比如bilinear和LHUC
改进3：特征工程，比如添加统计特征、多模态内容特征等

3.1.2 多目标预估

改进1：增加新的预估目标，并把预估结果加入融合公式。
改进2：MMoE、PLE等结构可能有效，但往往无效。
改进3：纠正position bias可能有效，也可能无效。

3.2 粗排模型的改进

粗排模型的打分量比精排大10被，因此粗排必须够快。

3.2.1 粗排模型

简单模型：多向量双塔模型
复杂模型：三塔模型效果好，但工程实现难度较大

3.2.2 粗精排一致性建模

蒸馏精排训练粗排
- pointwise蒸馏
  - 设 $y$ 是用户真实行为， $p$ 是精排的预估
  - 用 $\frac{y+p}{2}$ 作为粗排拟合的目标
- pairwise或listwise蒸馏
  - 给定 $k$ 个候选物品，按照精排预估做排序。
  - 做learning to ranke(LTR)，让粗排拟合物品的序（而非值）
优点：粗精排一致性建模可以提升核心指标。
缺点：如果精排出bug，精排预估值 $p$ 有偏，会污染粗排训练数据。

3.3 用户行为序列建模

改进1：增加序列长度，让预测更准确，但是会增加计算成本和推理时间。
改进2：筛选的方法，比如用类目、物品向量表征聚类。
改进3：对用户行为序列中的物品，使用ID以外的一些特征。

目前大都沿着SIM的方向发展，让原始序列尽量长，然后做筛选降低序列长度，最后将筛选结果输入DIN。

3.4 在线学习

全量更新 vs 增量更新

在线学习的资源消耗：
- 既需要在凌晨做全量更新，也需要全天不间断做增量更新。
- 假设线上有 $m$ 个模型，其中1个是holdout，一个是推全的模型， $m - 2$ 个测试的新模型。每套在线学习的机器成本都很大，因此 $m$ 数量很小，制约模型开发迭代的效率。

3.5 老汤模型

老汤模型：老模型训练得非常好，很难被超越。

3.5.1 如何快速判断新模型结构是否由于老模型？（只去看结构，老模型训练更久，新模型想要追平比较困难）

对于新、老模型结构，都随机初始化模型全连接层。
Embedding可以是随机初始化，也可以复用老模型训练好的参数。
用 $n$ 天的数据训练新老模型（从旧到新，训练1 epoch）
如果新模型显著优于老模型，新模型很可能更优。

3.5.2 如何更快追平线上的老模型？

方法1：尽可能多地复用老模型训练好的Embedding层（embedding学的比全连接慢）。
方法2：用老模型做teacher，蒸馏新模型。

4 多样性

4.1 排序的多样性

4.1.1 精排多样性

精排阶段，结合兴趣分数和多样性分数对物品 $i$ 排序
常用MMR、DPP等方法计算多样性分数，精排使用滑动窗口（精排决定最终的曝光，曝光页面上邻近的物品相似度应该小），粗排不适用滑动窗口（考虑整体的多样性）
除了多样性分数，精排还是用打散策略增加多样性

4.1.2 粗排多样性

根据兴趣分数进行排序，将分数最高的部分物品送入粗排。
在剩余的物品中，对每个物品 $i$ 计算兴趣分数 $s_i$ 和多样性分数 $d_i$ ，选择综合分数最高的部分物品进入精排。

4.2 召回的多样性

4.2.1 双塔模型：添加噪声

线上做召回时（在计算出用户向量之后，在做ANN检索之前），往用户向量中添加随机噪声。
用户的兴趣越窄，添加的噪声需要越强。
添加噪声在推荐准确度和多样性之间进行平衡。

4.2.2 双塔模型：抽样用户行为序列

保留用户行为序列中最近的 $r$ 个物品（ $r << n$ ），从剩余 $n - r$ 个物品中随机抽样 $t$ 个物品（ $t << n$ ）。
将得到的 $r + t$ 个物品作为用户行为序列，而不是用全部 $n$ 个物品。

Q：为什么抽样用户行为序列可以涨指标？

A：（1）提升多样性；（2）可以捕捉用户较长时间之前的兴趣。

4.2.3 U2I2I：抽样用户行为序列

种子物品覆盖的类目数可能非常少，且类目不平衡。
做非均匀随机抽样，从 $n$ 个物品中选出 $t$ 个，让类目平衡。用抽样得到的 $t$ 个物品代替U2I2I的种子物品。（多样性提升+覆盖的类目更多）

4.3 探索流量

每个用户曝光的物品中又2%是非个性化的，用作兴趣探索。
维护一个精选内容池，其中物品均为交互率指标高的优质物品。（用高质量弥补兴趣）
提权/强插
兴趣探索在短期内负面影响核心指标，但是长期会带来正面影响。

5 特殊对待特殊用户人群

为什么要特殊对待特殊人群？
- 新用户、低活用户的行为很少，个性化推荐不推荐。
- 新用户、低活用户容易流失，要想办法留存。
- 特殊用户的行为不同于主流用户，基于全体用户行为训练出的模型在特殊用户人群上有偏。

5.1 构造特殊内容池

特殊人群的行为很少，个性化召回不准确（用高质量弥补准确度）。
针对特定人群的特点构造特殊内容池，提升用户满意度。

5.1.1 如何构造特殊内容池

方法一：根据物品获得的交互次数、交互率选择优质物品。
- 圈定人群，构造内容池。
- 内容池有弱个性化的效果。内容池需要定期更新。该内容池只对该人群生效。
方法二：做因果推断，判断物品对人群留存率的贡献，根据贡献值选物品。

5.1.2 特殊内容池的召回

双塔模型是个性化的，对于新用户，可能不准，但是可以靠高质量、弱个性化做弥补。
额外的训练代价？No
- 正常用户，只训练一个双塔模型。
- 对于新用户，由于历史交互记录少，需要单独训练一个双塔模型。
额外的推理代价？Yes
- 内容池定期更新，然后做更新ANN检索。
- 线上做召回时，需要做ANN检索。
- 特殊内容池很小，所以增加的额外算力不会很大。

5.2 使用特殊排序策略

5.2.1 排除低质量物品

对于特殊人群，业务上只关注留存，不在乎消费（少出广告、甚至不出广告）。
新发布的物品不在新用户、低活用户上做探索，避免伤害用户体验。

5.2.2 差异化的融分公式

新用户、低活用户的点击、交互行为不同于正常用户。
低活用户的人均点击量很小。
- 融分公式中提高预估点击率的权重。
- 保留几个曝光坑位给预估点击率最高的几个物品。

5.3 特殊的排序模型

5.3.1 差异化的排序模型

问题：排序模型被主流用户主导，对特殊用户做不准预估。
方法：
- 大模型+小模型
  - 用全体用户行为训练大模型，其预估 $p$ 拟合用户行为 $y$
  - 用特殊用户的行为训练小模型，小模型的预估 $q$ 拟合大模型的残差 $y - p$ 。
  - 主流用户只用大模型预估 $p$ ，特殊用户融合两个模型预估 $p + q$ 。
- 融合多个experts，类似MMoE。（小神经网络的输入只有用户特征）
- 大模型预估之后，用小模型做校准。
  - 大模型做主流用户的预估，小模型输入大模型的输出，做refine。
错误的做法：每个用户人群设计一个大模型（短期有益，长期有害，维护成本高）

6 利用交互行为

如何利用交互行为？
- 最简单的方法：将模型预估的交互率用于排序。

6.1 关注

6.1.1 关注作者数量对用户留存的价值

用户留存率 $r$ 与他关注的作者数量 $f$ 正相关。
如何利用关注关系提升用户留存？
- 用排序策略提升关注量。
  - 对于用户 $u$ ，模型预估候选物品 $i$ 的关注率 $p_i$ 。
  - 设用户 $u$ 已经关注了 $f$ 个作者。
  - 定义单调递减函数 $w (f)$ ，在排序融分公式中添加 $w(f)\cdot p_i$ ，用于促关注。
- 构造促关注内容池和召回通道：
  - 如果用户关注的作者数较小，则对该用户使用该内容池。