深度学习推荐系统 学习笔记
本系列为笔者阅读《深度学习推荐系统》一书的读书笔记。将书读薄,是进步的第一步
导言
不同的商业化场景对推荐系统的优化目标不一样,比如,电商场景需要更高的购买转化率(CVR),
新闻类场景需要更高的点击率,视频类需要更高的观看时长(比如,YouTube就是)
推荐系统模块
推荐系统主要分为两个部分,数据部分和模型部分。
-
数据部分
主要涉及到“用户”,“物品”,“场景”信息的收取,并且需要数据经历离线,准实时,实时的处理,
其处理结果作为推荐系统模型部分的输入(这里指的输入是笼统说法,其实主要细分为三个部分:
1.作为模型部分的训练数据输入
2.作为模型部分的特征输入
3.不作为模型输入,直接生成BI报表) -
模型部分
主要由如下部分组成:
召回层:快速从海量数据中选出用户可能感兴趣的物品
排序层:利用算法对初筛的候选集进行精排
补充策略与算法层:在初排精排后,基于多样性,流行度,新鲜度等指标,补充一些额外的推荐结果
推荐系统训练形式
-
离线训练
能消化全量特征和数据,使得推荐靠近全局最优解 -
离线评估
离线训练需要设计离线评估的指标,比如auc,准确率 -
在线训练
可以准实时的消化新的用户数据样本,反映用户当前兴趣 -
A/B测试
在正式上线之前,需要做
深度学习贡献以及不足
目前大厂已经逐步深入使用DL进行推荐。相比传统模型,深度学习的模型对数据模式的拟合能力和特征组合的挖掘能力更强。
此外,深度学习模型结构的灵活性,使其可以根据不同的推荐场景调整模型,使之与特定业务数据“完美”契合。
目前深度学习在海量数据的实时处理方面,特征的实时提取,线上模型服务过程的数据的实时获取,仍然存在需要攻克的难题。