尝试学习一下推荐系统的公开课,做一些笔记。
推荐系统基础
01 推荐系统的基本概念
这课程以小红书的推荐系统为例,讲解基本概念。
**推荐系统的转化流程:**曝光 -> 点击 -> 滑动到底 / 点赞 / 收藏 / 转发 -> 评论
消费指标:
点击率 CTR = Click / Show
点赞率 = 点赞次数 / 点击次数
收藏率 = 收藏次数 / 点击次数
转发率 = 转发次数 / 点击次数
阅读完成率 = 滑动到底次数 / 点击次数 * f(笔记长度)
其中这个 f 是一个计算方法,由于笔记长短不一,单一的计算方式对长笔记显得不公平,因此有特别的方法来计算这种情况。
**北极星指标:**主要的衡量推荐系统效果的指标。
- **用户规模:**日活用户数(DAU)、月活用户数(MAU)
- **消费:**人均使用推荐时长、人均阅读笔记的数量。
- **发布:**发布渗透率、人均发布量。
实验流程:
离线实验 -> 小流量 AB 测试 -> 全流量上线
感觉和广告系统差不多。毕竟广告也是推荐系统
02 推荐系统的链路
- 召回(Retrieval):快速从海量数据中取回几千个用户可能感兴趣的物品。
- 粗排:用小规模的模型的神经网络给召回的物品打分,然后做截断,选出分数最高的几百个物品。
- 精排:用大规模神经网络给粗排选中的几百个物品打分,可以做截断,也可以不做截断。
- 重排:对精排结果做多样性抽样,得到几十个物品,然后用规则调整物品的排序。
流程图:
召回
从几亿 item 中通过多个不同的召回方式,选出几百条结果。
召回通道是选择的方式,小红书涉及十几种,协同过滤、双塔模型、关注的作者、等等。
粗排、精排
粗排、精排会将特征输入进神经网络,计算出一系列预估值,根据这些预估值得出排序分数。
重排
重排最重要的功能是多样性抽样。
比如第一个内容是 NBA,那接下来几个位置不能全是 NBA,相似的内容不能全是一样的。
总结