1. 转化流程
2. 短期消费指标
短期消费指标不是衡量推荐系统好坏的根本指标,不能一味追求用户的短期兴趣,还需要考虑到多样性,提高用户粘性。
- pv点击率(点击量/pv):计算用户每次进入页面的点击情况。pv点击率能粗略衡量转化效果,但是它的问题是容易受到攻击:少数用户贡献大量点击会掩盖在这个指标。
- uv点击率(点击量/uv):不受用户路径影响(用户重复浏览页面),完整单元点击效果。分母是整个产品的uv,而不是有点击行为的uv。uv点击率相对pv点击率的优势在于,它不受用户行为路径影响(不受重复浏览某个产品的影响),能记录用户在一个完成session的点击效果。
- 曝光点击率(点击量/曝光次数):上下翻feed流,每一屏转化效果。曝光点击率适合支持上拉/下拉翻页的产品,比如Feed流,相比pv点击率,曝光点击率的分母随用户刷屏次数增加而变大,能更真实的记录每一屏的转化情况。
- uv转化率(点击uv/进入uv):吸引用户的比例,消费宽度。入口型产品,如APP首页。与uv转化率相对的是页面的流失率,uv转化率衡量对用户的转化情况,通过我们的产品设计能够把多大比例的用户从一个场景转化到另一个我们希望的场景去。uv转化率相对于前两个指标,更健壮,不易受到攻击。
uv转化率尤其适合衡量入口型产品,比如视频app的首页,如果uv点击率去衡量会不太科学,因为一般用户在首页点击某个视频后,会进入详情页深度消费,很少会返回首页继续消费。这个用户已经被转化,但不在贡献点击,所以uv点击率不合理,用uv转化率就更加合理。
如果某页面的uv转化率较低,则表示大部分人对该页面都不感兴趣,遵循“不行就分”的简单原则,这样的页面去掉可能对产品更好。 - 人均点击个数(点击量/点击uv):每个用户消费的次数,消费深度。人均点击次数与uv转化率相铺相成。uv转化率表示页面的消费宽度(吸引的用户比例),而人均点击次数表示页面的消费深度(每个用户消费的次数)。
- 点赞率:点赞数/点击次数
- 转发率:转发次数/点击次数
- 收听完播率:收听完播次数/点击次数 x f(专辑声音时长)
3.北极星指标
北极星指标是衡量推荐系统的根本指标。主要包含以下三个方面:
-
用户规模:
- 日活用户数DAU
- 月活用户数MAU
-
消费:
-
停留时长(实际播放时间或 进度条时长,一般使用前者):
内容消费型产品,点击率很难反应推荐的真正效果,把用户“骗”进了希望的场景进行消费,但是发现真相的用户转身就走,这反而说明这个推荐是失败的。所欲需要引入停留时长来量化用户消费效果。音视频类的就对应播放时长。 -
人均收听专辑的个数
-
播放完成率(播放时长/视频时长):
由于停留时长受视频时长的锚定效应影响,稍微长一点的视频,即使用户不感兴趣,但是平均来说也会比短视频要停留更长一些。因此,播放完成率指标就能一定程度上去弥补这个问题,但是短视频天然的播放完成率要比长视频高,也是需要在看指标时注意。
-
比点击率和点赞率更能说明推荐系统的好坏,通常二者的涨跌是一致的。做好推荐系统的多样性,探索用户兴趣,用户收听时长增加了,点击率下降了,这样的策略完全ok。
- 发布:
- 发布渗透率
- 主播人均发布量:增加优质内容,扩大内容池
A/B实验流程:
离线实验—> 小流量AB测试——> 加大流量——> 全流量上线
4.推荐系统的链路
4.1 召回
召回:几亿物品–> 几千物品。召回通道主要有:
- 协同过滤
- 双塔模型
- 关注的作者等等
对不同的链路召回的内容做融合,并去除、过去用户不喜欢的作者、类目、物品。
4.2 排序
粗排:几千物品–> 几百物品。使用规模比较小的模型,对物品打分按照分数排序、截断。
精排:几百物品–>几百物品。使用大规模的深度神经网络,对于打分可以截断,可以不做阶段,直接带着分数进入重排。
模型效果:点击率、点赞率、收藏率、转发率,这些数值都是神经网络对用户行为的预估 ,把上述多个预估值做融合(加权和),得到最终的排序分数。
4.3 重排
- 多样性抽样的方法:从几百个中选择几十个
- 打散:用规则打散相似专辑
- 插入广告、运营推广内容,根据生态要求调整排序
5. 算法指标
召回(match)阶段负责从海量候选集中根据user 和 item特征筛选出用户感兴趣的item。当前召回现状如下:
- 多路召回:各路之间存在交叉、互补等情况。
- 召回模块决定着推荐效果的上限
- 很难实现线下线上测评数据一致,甚至出现线下测评优秀的召回,上线之后收益甚微甚至为负的情况。
因此,召回的评估系统比较难建立,为了有助于召回算法的优化,识别模型的偏差方差,发现热门推荐和尾部个性化推荐,对齐召回和排序目标,总结召回模型算法评估方法:
Recall:用户全部点击中有多少item被召回。
Precision:召回的item中有多少被用户点击了。
由于两项与N有极大关系,因此使用调和平均F1。R(u)为给用户u的推荐列表,T(u)为用户在测试集中点击列表,hits为用户点击的item总数。