《深度学习推荐系统》学习笔记(2)——传统推荐模型

本文介绍了推荐系统中传统模型的发展,从协同过滤、矩阵分解到逻辑回归及其变种,如POLY2、FM和FFM,再到结合梯度提升树的GBDT+LR和LS-PLM。这些模型逐步增强了特征交叉和表达能力,以应对数据稀疏性和泛化能力的挑战。尽管这些模型在特定场景下表现出色,但随着深度学习的兴起,模型的复杂性和表达能力进一步提升,为推荐系统带来了新的解决方案。
摘要由CSDN通过智能技术生成
  • 参考:
    《深度学习推荐系统》王喆

传统推荐模型

传统推荐模型优势

  • 可解释性强
  • 硬件环境要求低
  • 易于快速训练和部署
  • 拥有大量使适用的应用场景

演化关系

  1. 协同过滤算法族
    • ItemCF
    • UserCF
    • 矩阵分解MF,及其分支
  2. 逻辑回归模型族
    • LS-PLM非线性增强
  3. 因子分解机FM模型族
    • FFM域感知,加强特征交叉
  4. 组合模型
    • GBDT+LR
    • 特征工程模型化

请添加图片描述

协同过滤 CF (1992)

  • 原理:根据用户的行为历史生成用户-物品共现矩阵,利用用户相似性和物品相似性进行推荐
  • 特点:原理简单、直接、应用广泛
  • 局限:泛化能力差,处理稀疏矩阵能力差,推荐结果头部效应明显
    • 尾部物品难被推荐
    • 处理稀疏矩阵能力不足-> 矩阵分解,共现矩阵 分解为 稠密隐向量
    • 仅利用交互信息,有效信息遗漏,e.g. 用户、物品、上下文 特征

[2-1] DAVID GOLDBERG, et al. Using collaborative filtering to weave an information tapestry[J]. Communications of the ACM, 1992, 35(12): 61-71.
http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=00BC005D642FDB61084D92E6364B47D1?doi=10.1.1.104.3739&rep=rep1&type=pdf

[2-2] GREG, LINDEN, SMITH BRENT, YORK JEREMY.Amazon.com Recommenders: Item-to-item collaborative filtering[J]. IEEE Internet computing 1, 2003: 76-80.
http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=0A0A087779F3DE0D8BA3D6B17236B50D?doi=10.1.1.435.7453&rep=rep1&type=pdf

  • 协同过滤算法原理图

请添加图片描述

矩阵分解 Matrix Factorization (2009)

  • 原理:将协同过滤算法中的共现矩阵分解为用户矩阵和物品矩阵,利用用户隐向量和物品隐向量的内积进行排序并推荐
  • 特点:相较协同过滤,泛化能力有所加强,对稀疏矩阵的处理能力有所加强
    • 泛化能力强
    • 空间复杂度低 O [ ( m + n ) k ] O[(m+n)k] O[(m+n)k]
    • 更好地扩展和灵活性(深度学习Embedding思想)
  • 局限:除了用户历史行为数据,难以利用其他用户、物品特征及上下文特征
  • 求解:
    • 奇异值分解SVD
      • 缺陷1:要求共现矩阵稠密
      • 缺陷2:复杂度高达 O ( m n 2 ) O(mn^2) O(mn2)
    • 梯度下降GD
      • 公式推导
      • 过拟合和正则化
      • 消除用户和物品打分偏差(用户、物品偏差向量)

[2-3] KOREN YEHUDA, BELL ROBERT, CHRIS VOLINSKY. Matrix factorization techniques for recommender systems[J]. Computer 8, 2009:30-37.
http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=0672EF8CCF3F52154E8531BEA88A5EC1?doi=10.1.1.147.8295&rep=rep1&type=pdf

[2-4] CLINE, ALAN KAYLOR, INDERJIT S.DHILLON. Computation of the singular value decomposition[C].2006.
http://math.ecnu.edu.cn/~jypan/Teaching/MatrixComp/refs/2014%20Computation%20of%20the%20SVD.pdf

  • 矩阵分解算法原理图

请添加图片描述

  • SVD示意图

请添加图片描述

逻辑回归 LR

  • 原理:将推荐问题转换成类似CTR预估的二分类问题,将用户、物品、上下文等不同特征转换成特征向量,输入逻辑回归模型得到CTR, 再按照预估CTR进行排序并推荐
  • 特点:能够融合多种类型的不同特征
    • 数学含义上的支撑
    • 可解释性强:各特征加权和,权重的意义
    • 工程化的需要:易于并行化、模型简单、训练开销小
  • 局限:模型不具备特征组合的能力,表达能力较差
    • 一阶方法特征,无法进行特征交叉、特征筛选等
  • 模型
    • 数学形式
    • 训练:一阶方法为主

POLY2(2010)

  • 原理:(二阶)特征“暴力”组合,两两交叉
  • 特点:特征交叉的开始
  • 缺陷:
    • 原本非常稀疏的特征,变得更加稀疏
    • 权重参数量激增: n n n -> n 2 n^2 n2

Y.-W. Chang, C.-J. Hsieh, K.-W. Chang, M. Ringgaard, and C.-J. Lin, “Training and testing low-degree polynomial data mappings via linear SVM,” Journal of Machine Learning Research, vol. 11, pp. 1471–1490, 2010.

[2-6-REF4] https://dl.acm.org/doi/pdf/10.5555/1756006.1859899

请添加图片描述

FM (Factorization Machine)(2010)

  • 原理:在逻辑回归的基础上,在模型中加入二阶特征交叉部分,为每一维特征训练得到相应特征隐向量,通过隐向量间的内积运算得到交叉特征权重
    • 相比于POLY2
      • 用两个向量的内积 ( w j 1 ⋅ w j 2 ) (w_{j1} \cdot w_{j2}) (wj1wj2)(论文里是 < v i , v j > <v_i, v_{j}> <vi,vj>);
      • 取代了单一权重系数;参数量由 n 2 n^2 n2减少到 n k nk nk
      • 丢失了某些具体特征组合的精确记忆能力,换取了泛化能力大大提高;
    • 相比于矩阵分解
      • “隐向量”思想异曲同工,但FM进一步扩展,引入了用户、物品特征以及上下文等信息
  • 特点:相比逻辑回归,具备了二阶特征交叉能力,模型的表达能力增强
    • 隐向量的引入,使得FM更好地解决了数据稀疏的问题
  • 局限:由于组合爆炸问题的限制,模型不易扩展到三阶特征交叉阶段

[2-5] Steffen Rendle. Factorization machines[C]. 2010 IEEE International Conference on Data Mining, 2010.
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.393.8529&rep=rep1&type=pdf

请添加图片描述

FFM (Field-aware FM)(2015)

  • 原理:在FM模型的基础上,加入 “特征域” 的概念,使每个特征在与不同域的特征交叉时采用不同的隐向量
  • 特点:相比FM, 进一步加强了特征交叉的能力
  • 局限:模型的训练开销达到了 O ( n 2 ) O(n^2) O(n2)的量级,训练开销较大

[2-6] JUAN, YUCHIN, et al. Field-aware factorization machines for CTR prediction[C]. Proceedings of the 10th ACM Conference on Recommender Systems, 2016.
https://www.csie.ntu.edu.tw/~cjlin/papers/ffm.pdf

请添加图片描述

请添加图片描述

GBDT+LR (2014)

  • 原理:利用GBDT进行 “自动化”的特征组合 ,将原始特征向量转换成离散型特征向量,并输入逻辑回归模型,进行最终的CTR预估
  • 特点:特征工程模型化,使模型具备了更高阶特征组合的能力
  • 局限:GBDT无法进行完全并行的训练,更新所需的训练时长较长

[2-7] HE XINRAN, et al. Practical lessons from predicting clicks on ads at facebook[C]. Proceedings of the Eighth International Workshop on Data Mining for Online Advertising, 2014.
http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=A54CCA7D4A8F05B6636C9D64316BCF96?doi=10.1.1.718.9050&rep=rep1&type=pdf

请添加图片描述

LS-PLM (Large Scale Piece-wise Linear Model)(2012使用,2017公开)

  • 原理:首先对样本进行 “分片”,在每个“分片”内部构建逻辑回归模型,将每个样本的各“分片”概率与逻辑回归的得分进行加权平均,得到最终的预估值
    • 又被称为MLR(Mixed Logistic Regression,混合逻辑模型)
    • LR的基础上,加入聚类思想。先对全量样本聚类,再对每个分类施以LR估计CTR
    • 超参数 m m m平衡模型拟合和推广能力,实践中,阿里巴巴给出经验值 m = 12 m=12 m=12
  • 特点:模型结构类似三层神经网络,具备了较强的表达能力
    • 影响力大,结构简单
    • 端到端的非线性学习能力;
    • 模型的稀疏性强:建模时引入 L 1 L1 L1 L 2 , 1 L2,1 L2,1范数,模型稀疏,部署轻量级,在线推断高效
  • 局限:模型结构相比深度学习模型仍比较简单,有进一步提高的空间
  • 深度学习视角:
    • 三层神经网络模型(单隐层)
    • 注意力机制(Attention):隐层和输出层之间,权重由分片函数得出的注意力得分 确定

[2-8] KUN GAI, et al. Learning piece-wise linear models from large scale data for ad click prediction[A/OL]: arXiv preprint arXiv: 1704.05194 (2017).
https://arxiv.org/pdf/1704.05194.pdf

请添加图片描述

其他参考文献

[2-9] [AlexNet] KRIZHEVSKY ALEX, ILYA SUTSKEVER, GEOFFREY E. Hinton. Imagenet classification with deep convolutional neural networks[C]. Advances in neural information processing systems, 2012.
http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=1166C42C86BD3A3C6C75B53E2CD2E14F?doi=10.1.1.299.205&rep=rep1&type=pdf

请添加图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值