《深度学习推荐系统》——第二章3-CSDN博客

本文链接：https://blog.csdn.net/Drogal_dracarys/article/details/130748137

2.4 逻辑回归——融合多种特征的推荐模型

相⽐协同过滤模型仅利用用户与物品的相互行为信息进行推荐，逻辑回归模型能够综合利用用户、物品、上下⽂等多种不同的特征，⽣成较为“ 全⾯” 的推荐结果。另外，逻辑回归的另⼀种表现形式“ 感知机” 作为神经网络中最基础的单⼀神经元，是深度学习的基础性结构。因此，能够进行多特征融合的逻辑回归模型成了独⽴于协同过滤的推荐模型发展的另⼀个主要方向。
相⽐协同过滤和矩阵分解利用用户和物品的“ 相似度” 进行推荐，逻辑回归将推荐问题看成⼀个分类问题，通过预测正样本的概率对物品进行排序。这里的正样本可以是用户“ 点击” 了某商品，也可以是用户“ 观看” 了某视频，均是推荐系统希望用户产⽣的“ 正反馈” 行为。因此，逻辑回归模型将推荐问题转换成了⼀个点击率（Click Through Rate，CTR )预估问题。

2.4.1 基于逻辑回归模型的推荐流程

基于逻辑回归的推荐过程如下。
(1 )将用户年龄、性别、物品属性、物品描述、当前时间、当前地点等特征转换成数值型特征向量。
(2)确定逻辑回归模型的优化⽬标（以优化“ 点击率” 为例），利用已有样本数据对逻辑回归模型进行训练，确定逻辑回归模型的内部参数。
(3 )在模型服务阶段，将特征向量输入逻辑回归模型，经过逻辑回归模型的推断，得到用户“ 点击”（这里用点击作为推荐系统正反馈行为的例⼦）物品的概率。
(4)利用“ 点击” 概率对所有候选物品进行排序，得到推荐列表。
基于逻辑回归的推荐过程的重点在于，利用样本的特征向量进行模型训练和在线推断。下⾯着重介绍逻辑回归模型的数学形式、推断过程和训练方法。

2.4.2 逻辑回归模型的数学形式

在这里插入图片描述

2.4.3 逻辑回归模型的训练方法

逻辑回归模型常用的训练方法是梯度下降法、⽜顿法、拟⽜顿法等，其中梯度下降法是应用最广泛的训练方法，也是学习深度学习各种训练方法的基础。事实上，在介绍矩阵分解训练方法时，已经对梯度下降法的具体步骤进行了介绍。

基础知识⼀⼀什么是梯度下降法

梯度下降法是⼀个⼀阶最优化算法，也称为最速下降法。应用梯度下降法的⽬的是找到⼀个函数的局部极⼩值。为此，必须沿函数上当前点对应梯度（或者是近似梯度）的反方向进行规定步⻓距离的迭代搜索。如果向梯度正方向迭代进行搜索，则会接近函数的局部极大值点，这个过程被称为梯度上升法。

如图 2-9所示，梯度下降法很像寻找⼀个盆地最低点的过程。那么，在寻找最低点的过程中，沿哪个方向才是下降最快的方向呢？
在这里插入图片描述
因此，在优化某模型的⽬标函数时，只需对⽬标函数进行求导，得到梯度的方向，沿梯度的反方向下降，并迭代此过程直⾄寻找到局部最⼩点。
使用梯度下降法求解逻辑回归模型的第⼀步是确定逻辑回归的⽬标函数。已
在这里插入图片描述

极大似然估计

来源
极大似然估计，通俗理解来说，就是利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值！

换句话说，极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。

可能有小伙伴就要说了，还是有点抽象呀。我们这样想，——当模型满足某个分布，它的参数值我通过极大似然估计法求出来的话。比如正态分布中公式如下：
在这里插入图片描述
https://link.zhihu.com/?target=http%3A//blog.csdn.net/u011508640/article/details/72815981

例子一
别人博客的一个例子。

假如有一个罐子，里面有黑白两种颜色的球，数目多少不知，两种颜色的比例也不知。我们想知道罐中白球和黑球的比例，但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来，记录球的颜色，然后把拿出来的球再放回罐中。这个过程可以重复，我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中，有七十次是白球，请问罐中白球所占的比例最有可能是多少？

很多人马上就有答案了：70%。而其后的理论支撑是什么呢？

我们假设罐中白球的比例是p，那么黑球的比例就是1-p。因为每抽一个球出来，在记录颜色之后，我们把抽出的球放回了罐中并摇匀，所以每次抽出来的球的颜色服从同一独立分布。

这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中，七十次是白球的,三十次为黑球事件的概率是P(样本结果|Model)。

如果第一次抽象的结果记为x1,第二次抽样的结果记为x2…那么样本结果为(x1,x2…,x100)。这样，我们可以得到如下表达式：

P(样本结果|Model)

= P(x1,x2,…,x100|Model)

= P(x1|Mel)P(x2|M)…P(x100|M)

= p⁷⁰ * (1-p)³⁰.

好的，我们已经有了观察样本结果出现的概率表达式了。那么我们要求的模型的参数，也就是求的式中的p。

那么我们怎么来求这个p呢？

不同的p，直接导致P（样本结果|Model）的不同。

好的，我们的p实际上是有无数多种分布的。如下：
在这里插入图片描述
那么求出 p⁷⁰(1-p)³⁰为 7.8 * 10^(-31)

p的分布也可以是如下：
在这里插入图片描述

那么也可以求出p⁷⁰(1-p)³⁰为2.95* 10^(-27)

那么问题来了，既然有无数种分布可以选择，极大似然估计应该按照什么原则去选取这个分布呢？

答：采取的方法是让这个样本结果出现的可能性最大，也就是使得p⁷⁰(1-p)³⁰值最大，那么我们就可以看成是p的方程，求导即可！

那么既然事情已经发生了，为什么不让这个出现的结果的可能性最大呢？这也就是最大似然估计的核心。

我们想办法让观察样本出现的概率最大，转换为数学问题就是使得：

p⁷⁰(1-p)³⁰最大，这太简单了，未知数只有一个p，我们令其导数为0，即可求出p为70%，与我们一开始认为的70%是一致的。其中蕴含着我们的数学思想在里面。

例子二
假设我们要统计全国人民的年均收入，首先假设这个收入服从服从正态分布，但是该分布的均值与方差未知。我们没有人力与物力去统计全国每个人的收入。我们国家有10几亿人口呢？那么岂不是没有办法了？

不不不，有了极大似然估计之后，我们可以采用嘛！我们比如选取一个城市，或者一个乡镇的人口收入，作为我们的观察样本结果。然后通过最大似然估计来获取上述假设中的正态分布的参数。

有了参数的结果后，我们就可以知道该正态分布的期望和方差了。也就是我们通过了一个小样本的采样，反过来知道了全国人民年收入的一系列重要的数学指标量！

那么我们就知道了极大似然估计的核心关键就是对于一些情况，样本太多，无法得出分布的参数值，可以采样小样本后，利用极大似然估计获取假设中分布的参数值。
可以看出，⽆论是矩阵分解还是逻辑回归，在用梯度下降求解时都遵循其基本步骤。问题的关键在于利用模型的数学形式找出其⽬标函数，并通过求导得到梯度下降的公式。在之后的章节中，如⽆特殊情况，将不再⼀⼀推导模型的参数更新公式。有兴趣的读者可以尝试推导或者阅读模型相关的论⽂。

2.4. 4 逻辑回归模型的优势

在深度学习模型流行之前，逻辑回归模型曾在相当⻓的⼀段时间里是推荐系统、计算广告业界的主要选择之⼀。除了在形式上适于融合不同特征，形成较“ 全⾯” 的推荐结果，其流行还有三方⾯的原因：⼀是数学含义上的⽀撑；⼆是可解释性强；三是工程化的需要。
1.数学含义上的支持
逻辑回归作为广义线性模型的⼀种，它的假设是因变量 y 服从伯努利分布。那么在 CTR 预估这个问题上，“ 点击” 事件是否发⽣就是模型的因变量而用户是否点击广告是⼀个经典的掷偏⼼硬币问题。因此，CTR 模型的因变量显然应该服从伯努利分布。所以，采用逻辑回归作为 CTR 模型是符合 “ 点击” 这⼀事件的物理意义的。
与之相⽐，线性回归作为广义线性模型的另⼀个特例，其假设是因变量 y 服从高斯分布，这明显不是点击这类⼆分类问题的数学假设。
分界线——————————————————————————————————————————————

逻辑回归和线性回归

来源，再看吧
1线性回归
线性回归一般用于预测连续值变量，如房价预测问题。
在这里插入图片描述
其中权重theta的更新，一般可选用梯度下降等相关优化方法。由于MSE对特征值的范围比较敏感，一般情况下对会对特征进行归一化处理。
2 逻辑回归
深入理解“逻辑回归”的名字想要理解透名字，需要拆开理解，拆成两部分：“逻辑”和“回归”

“回归”很好理解，“回归”来自其父级，即广义线性回归模型。
“逻辑”如何理解？这是个烂翻译。Logistic 在这里不应该翻译成“逻辑”，因为其语义来自Logarithm：对数。这也更体现了Logistic Regression的本质。
逻辑回归虽然叫做回归，但是其主要解决分类问题。可用于二分类，也可以用于多分类问题。
由于线性回归其预测值为连续变量，其预测值在整个实数域中。

而对于预测变量y为离散值时候，可以用逻辑回归算法（Logistic Regression）

逻辑回归的本质是将线性回归进行一个变换，该模型的输出变量范围始终在 0 和 1 之间。
来源2
1 线性回归（Linear Regression）
总结一下，线性回归可以说是一个拟合直线的问题（非线性回归就是拟合曲线？）。
做法是：
首先选择一个模型（方程），它最符合你的数据集的分布，你需要找到它的参数。在这个例子里是一条直线。
然后选择一个代价函数，一般是用平方误差函数。它能反映你的数据集和你的模型（方程）之间的整体偏差。
然后选择一个优化算法，一般是用梯度下降法，把数据集代进去，更新模型（方程）的参数，使代价函数越来越小。
代价函数变得最小的时候，优化完毕，找到了这个模型（方程）的最佳参数。
2 逻辑回归（Logistic Regression）
虽然它的名字里面也有 “回归” 两个字，但是它解决的是一个分类问题，处理的是 “预测值为一个离散变量” 的情况下的分类问题。
为什么叫逻辑回归，大概是因为它的代价函数里面有一个逻辑函数。
分界线———————————————————————————————————————————————————
2.可解释性强
直观地讲，逻辑回归模型的数学形式是各特征的加权和，再施以 sigmoid 函数。在逻辑回归数学基础的⽀撑下，逻辑回归的简单数学形式也⾮常符合入类对预估过程的直觉认知。
使用各特征的加权和是为了综合不同特征对 CTR 的影响，而不同特征的重要程度不⼀样，所以为不同特征指定不同的权重，代表不同特征的重要程度。最后，通过 sigmoid 函数，使其值能够映射到 0~1 区间，正好符合 CTR 的物理意义。
线性回归如此符合入类的直觉认知显然有其他的好处—使模型具有极强的可解释性。算法工程师可以轻易地根据权重的不同解释哪些特征比较重要，在CTR 模型的预测有偏差时定位是哪些因素影响了最后的结果。在与负责运营、产品的同事合作时，也便于给出可解释的原因，有效降低沟通成本。

3.工程化的需要
在互联网公司每天动辄 TB 级别的数据⾯前，模型的训练开销和在线推断效率显得异常重要。在 GPU 尚未流行的 2012年之前，逻辑回归模型凭借其易于并行化、模型简单、训练开销⼩等特点，占据着工程领域的主流。囿于工程团队的限制，即使其他复杂模型的效果有所提升，在没有明显击败逻辑回归模型之前，公司也不会贸然加大计算资源的投入，升级推荐模型或 CTR 模型，这是逻辑回归持续流行的另⼀重要原因。

2.4.5 逻辑回归模型的局限性

逻辑回归作为⼀个基础模型，显然有其简单、直观、易用的特点。但其局限性也是⾮常明显的：表达能力不强，⽆法进行特征交叉、特征筛选等⼀系列较为高级” 的操作，因此不可避免地造成信息的损失。为解决这⼀问题，推荐模型朝着复杂化的方向继续发展，衍⽣出因⼦分解机等高维的复杂模型。在进入深度学习时代之后，多层神经网络强大的表达能力可以完全替代逻辑回归模型，让它逐渐从各公司退役。各公司也将转而投入深度学习模型的应用浪潮之中。

2.5 从 FM 到 FFM——自动特征交叉的解决方案

逻辑回归模型表达能力不强的问题，会不可避免地造成有效信息的损失。在仅利用单⼀特征而⾮交叉特征进行判断的情况下，有时不仅是信息损失的问题，甚⾄会得出错误的结论。著名的**“ 辛普森悖论”** 用⼀个⾮常简单的例⼦，说明了进行多维度特征交叉的重要性。

基础知识——什么是辛普森悖论

在对样本集合进行分组研究时，在分组⽐重中都占优势的⼀方，在总评中有时反而是失势的⼀方，这种有悖常理的现象，被称为 “ 辛普森悖论”。下⾯用⼀个视频推荐的例⼦进⼀步说明什么是“ 辛普森悖论”。
假设表 2-1 和表 2-2所示为某视频应用中男性用户和女性用户点击视频的数据。
在这里插入图片描述
因此，通过改造逻辑回归模型，使其具备特征交叉的能力是必要和迫切的。

2.5.1 POLY2模型—特征交叉的开始

针对特征交叉的问题，算法工程师经常采用先⼿动组合特征，再通过各种分析⼿段筛选特征的方法，但该方法⽆疑是低效的。更遗憾的是，入类的经验往往有局限性，程序员的时间和精力也⽆法⽀撑其找到最优的特征组合。因此，采用POLY2模型进行特征的 “ 暴力” 组合成了可行的选择。
在这里插入图片描述

2.5.2 FM 模型——隐向量特征交叉

在这里插入图片描述
FM 通过引入特征隐向量的方式，直接把 POLY2 模型n2级别的权重参数数量减少到了 nk （k 为隐向量维度，n»k )。在使用梯度下降法进行 FM 训练的过程中，FM 的训练复杂度同样可被降低到nk级别，极大地降低了训练开销。
隐向量的引入使 FM 能更好地解决数据稀疏性的问题。举例来说，在某商品推荐的场景下，样本有两个特征，分别是频道（ channel )和品牌（ brand ), 某训练样本的特征组合是(ESPN,Adidas)。在POLY2中，只有当 ESPN 和 Adidas 同时出现在⼀个训练样本中时，模型才能学到这个组合特征对应的权重；而在 FM 中，ESPN 的隐向量也可以通过(ESPN,Gucci)样本进行更新，Adidas 的隐向量也可以通过(NBC,Adidas)样本进行更新，这大幅降低了模型对数据稀疏性的要求。甚⾄对于⼀个从未岀现过的特征组合(NBC, Gucci), 由于模型之前已经分别学习过NBC 和 Gucci 的隐向量，具备了计算该特征组合权重的能力，这是 POLY2⽆法实现的。相⽐ POLY2, FM 虽然丢失了某些具体特征组合的精确记忆能力，但是泛化能力大大提高。
在工程方⾯，FM 同样可以用梯度下降法进行学习，使其不失实时性和灵活性。相⽐之后深度学习模型复杂的网络结构导致难以部署和线上服务，FM 较容易实现的模型结构使其线上推断的过程相对简单，也更容易进行线上部署和服务。因此，FM 在 2012—2014年前后，成为业界主流的推荐模型之⼀。

2.5.3 FFM模型——引入特征域的概念

2015年，基于 FM 提出的 FFM[6]在多项 CTR 预估大赛中夺魁，并被 Criteo、美团等公司深度应用在推荐系统、CTR 预估等领域。相⽐ FM 模型，FFM 模型引入了**特征域感知（ field-aware )**这⼀概念，使模型的表达能力更强。
在这里插入图片描述
隐向量进行交叉。
这里所说的域（field )具体指什么呢？简单地讲，“ 域” 代表特征域，域内的特征⼀般是采用 one-hot 编码形成的⼀段 one-hot 特征向量。例如，用户的性别分为男、女、未知三类，那么对⼀个女性用户来说，采用 one-hot 方式编码的特征向量为[0，1,0]，这个三维的特征向量就是⼀个“ 性别” 特征域。将所有特征域连接起来，就组成了样本的整体特征向量。
下⾯介绍 Criteo FFM 的论⽂[6]中的⼀个例⼦，更具体地说明 FFM 的特点。假设在训练推荐模型过程中接收到的训练样本如图 2-11 所示。
在这里插入图片描述
的kn。在实际工程应用中，需要在模型效果和工程投入之间进行权衡。

2.5.4 从 POLY2到 FFM 的模型演化过程

本节最后，用图示的方法回顾从 P0LY2到 FM 再到 FFM 的模型演化过程。本节仍以图 2-8 所示的训练样本为例。
POLY2模型直接学习每个交叉特征的权重，若特征数量为则权重数量为n2量级，具体为 n(n-1)/2 个。如图 2-12 所示，每个彩⾊原点代表⼀个特征交叉项。
在这里插入图片描述
FM 模型学习每个特征的 k 维隐向量，交叉特征由相应特征隐向量的内积得到，权重数量共 nk 个。FM ⽐POLY2的泛化能力强，但记忆能力有所减弱，处理稀疏特征向量的能力远强于 POLY2 如图 2-13 所示，每个特征交叉项不再是单独⼀个圆点，而是 3个彩⾊圆点的内积，代表每个特征有⼀个 3维的隐向量。
在这里插入图片描述
FFM 模型在 FM 模型的基础上引⼊了特征域的概念，在做特征交叉时，每个特征选择与对方域对应的隐向量做内积运算，得到交叉特征的权重，在有n个特征，f个特征域，隐向量维度为k的前提下，参数数量共nkf个。如图 2-14所示，每个特征都有 2个隐向量，根据特征交叉对象特征域的不同，选择使用对应的隐向量。
在这里插入图片描述
理论上，FM 模型族利用交叉特征的思路可以引申到三阶特征交叉，甚⾄更高维的阶段。但由于组合爆炸问题的限制，三阶 FM ⽆论是权重数量还是训练复杂度都过高，难以在实际工程中实现。那么，如何突破⼆阶特征交叉的限制，进⼀步加强模型特征组合的能力，就成了推荐模型发展的方向。2.6节将介绍的组合模型在⼀定程度上解决了高阶特征交叉的问题。

2.6 GBDT+LR——特征工程模型化的开端

FFM 模型采用引⼊特征域的方式增强了模型的特征交叉能力，但⽆论如何，FFM 只能做⼆阶的特征交叉，如果继续提高特征交叉的维度，会不可避免地产⽣组合爆炸和计算复杂度过高的问题。那么，有没有其他方法可以有效地处理高维特征组合和筛选的问题呢？2014年,Facebook 提出了基于 GBDT+LR[7]组合模型的解决方案。

2.6.1 GBDT+LR 组合模型的结构

简而⾔之，Facebook 提出了⼀种利用 GBDT 自动进行特征筛选和组合，进而⽣成新的离散特征向量，再把该特征向量当作 LR 模型输入，预估 CTR 的模型结构（如图 2-15所示）。
在这里插入图片描述
需要强调的是，用 GBDT 构建特征工程，利用 LR 预估 CTR 这两步是独⽴训练的，所以不存在如何将 LR 的梯度回传到 GBDT 这类复杂的问题。利用 LR预估 CTR 的过程在 2.4 节已经进行了详细介绍，本节着重讲解利用 GBDT 构建新的特征向量的过程。

基础知识——什么是 GBDT 模型

GBDT 的基本结构是决策树组成的树林如图 2-16所示），学习的方式是梯度提升。
在这里插入图片描述
具体地讲，GBDT 作为集成模型，预测的方式是把所有⼦树的结果加起来。

GBDT 通过逐⼀⽣成决策⼦树的方式⽣成整个树林，⽣成新⼦树的过程是利用样本标签值与当前树林预测值之间的残差，构建新的⼦树。假设当前已经⽣成了 3棵⼦树，则当前的预测值为
在这里插入图片描述
理论上，如果可以⽆限⽣成决策树，那么 GBDT 可以⽆限逼近由所有训练集样本组成的⽬标拟合函数，从而达到减⼩预测误差的⽬的。
GBDT 是由多棵回归树组成的树林，后⼀棵树以前⾯树林的结果与真实结果的残差为拟合⽬标。每棵树⽣成的过程是⼀棵标准的回归树⽣成过程，因此回归树中每个节点的分裂是⼀个自然的特征选择的过程，而多层节点的结构则对特征进行了有效的自动组合，也就⾮常高效地解决了过去棘⼿的特征选择和特征组合的问题。

2.6.2 GBDT 进行特征转换的过程

利用训练集训练好 GBDT 模型之后，就可以利用该模型完成从原始特征向量到新的离散型特征向量的转化。具体过程如下。
⼀个训练样本在输入 GBDT 的某⼀⼦树后，会根据每个节点的规则最终落入某⼀叶⼦节点，把该叶⼦节点置为 1 ，其他叶⼦节点置为 0, 所有叶⼦节点组成的向量即形成了该棵树的特征向量，把 GBDT 所有⼦树的特征向量连接起来，即形成了后续 LR 模型输入的离散型特征向量。
举例来说，如图 2-17 所示，GBDT 由三棵⼦树构成，每棵⼦树有 4 个叶⼦节点，输入⼀个训练样本后，其先后落⼊“ ⼦树 1 ” 的第 3 个叶节点中，那么特征向量就是[0,0，1 ,0]，“ ⼦树 2” 的第 1 个叶节点，特征向量为[ 1 ,0,0,0]，“ ⼦树 3”的第 4 个叶节点，特征向量为[0,0,0,1 ]，最后连接所有特征向量，形成最终的特征向量[0,0,1，0，1 ,0,0,0,0,0,0,1]。
在这里插入图片描述
事实上，决策树的深度决定了特征交叉的阶数。如果决策树的深度为 4, 则通过 3次节点分裂，最终的叶节点实际上是进行三阶特征组合后的结果，如此强的特征组合能力显然是 FM 系的模型不具备的。但 GBDT 容易产⽣过拟合，以及GBDT 的特征转换方式实际上丢失了大量特征的数值信息，因此不能简单地说GBDT 的特征交叉能力强，效果就⽐ FFM 好，在模型的选择和调试上，永远都是多种因素综合作用的结果。

2.6.3 GBDT+LR 组合模型开启的特征工程新趋势

GBDT+LR 组合模型对于推荐系统领域的重要性在于，它大大推进了特征工程模型化这⼀重要趋势。在GBDT+LR 组合模型出现之前，特征工程的主要解决方法有两个：⼀是进行人工的或半人工的特征组合和特征筛选；⼆是通过改造⽬标函数，改进模型结构，增加特征交叉项的方式增强特征组合能力。但这两种方法都有弊端，第⼀种方法对算法工程师的经验和精力投入要求较高；第⼆种方法则要求从根本上改变模型结构，对模型设计能力的要求较高。
GBDT+LR 组合模型的提出，意味着特征工程可以完全交由⼀个独⽴的模型来完成，模型的输入可以是原始的特征向量，不必在特征工程上投入过多的入工筛选和模型设计的精力，实现真正的端到端（ End to End )训练。
广义上讲，深度学习模型通过各类网络结构、Embedding 层等方法完成特征工程的自动化，都是 GBDT+LR 开启的特征工程模型化这⼀趋势的延续。

2.7 LS-PLM——阿里巴巴曾经的主流推荐模型

笔者介绍的前深度学习时代的最后⼀个推荐模型是阿⾥巴巴曾经的主流推荐模型 “ 大规模分段线性模型” Large Scale Piece-wise Linear Model,以下简称 LS-PLM[8])。选择 LS-PLM 作为本章压轴模型的原因有两个。⼀是其影响⼒大。虽然该模型在 2017 年才被阿⾥巴巴公之于众，但其实早在 2012年，它就是阿⾥巴巴主流的推荐模型，并在深度学习模型提出之前⻓时间应用于阿⾥巴巴的各类广告场景。⼆是其结构特点。LS-PLM 的结构与三层神经⽹络极其相似，在深度学习来临的前夜，可以将它看作推荐系统领域连接两个时代的节点。

2.7.1 LS-PLM 模型的主要结构

LS-PLM,⼜被称为 MLR(Mixed Logistic Regression,混合逻辑回归）模型。本质上，LS-PLM 可以看作对逻辑回归的⾃然推广，它在逻辑回归的基础上采用分而治之的思路，先对样本进行分片，再在样本分片中应用逻辑回归进行 CTR预估。
在逻辑回归的基础上加⼈聚类的思想，其灵感来⾃对广告推荐领域样本特点的观察。举例来说，如果 CTR 模型要预估的是女性受众点击女装广告的 CTR那么显然，我们不希望把男性用户点击数码类产品的样本数据也考虑进来，因为这样的样本不仅与女性购买女装的广告场景毫⽆相关性，甚⾄会在模型训练过程中扰乱相关特征的权重。为了让 CTR 模型对不同用户群体、不同使用场景更有针对性，其采用的⽅法是先对全量样本进行聚类，再对每个分类施以逻辑回归模型进行 CTR 预估。LS-PLM 的实现思路就是由该灵感产⽣的。
LS-PLM 的数学形式如（式 2-23)所示，⾸先用聚类函数Π 对样本进行分类(这⾥的采用了 softmax 函数对样本进行多分类），再用 LR 模型计算样本在分片中具体的 CTR 然后将⼆者相乘后求和。
在这里插入图片描述
其中的超参数“ 分⽚数” m 可以较好地平衡模型的拟合与推⼴能⼒。当 m=1时，LS-PLM 就退化为普通的逻辑回归。m 越⼤，模型的拟合能⼒越强。与此同时，模型参数规模也随 m 的增⼤⽽线性增⻓，模型收敛所需的训练样本也随之增⻓。在实践中，阿⾥巴巴给出的 m 的经验值为 12。
在图 2-18中，分别⽤红⾊和蓝⾊表示两类训练数据，传统 LR 模型的拟合能⼒不⾜，⽆法找到⾮线性的分类⾯，⽽ MLR 模型⽤ 4 个分⽚完美地拟合出了数据中的菱形分类⾯。
在这里插入图片描述

2.7.2 LS-PLM 模型的优点

LS-PLM 模型适⽤于⼯业级的推荐、⼴告等⼤规模稀疏数据的场景，主要是因为其具有以下两个优势。
(1)端到端的⾮线性学习能⼒：LS-PLM 具有样本分⽚的能⼒，因此能够挖掘出数据中蕴藏的⾮线性模式，省去了⼤量的⼈⼯样本处理和特征⼯程的过程，使 LS-PLM 算法可以端到端地完成训练，便于⽤⼀个全局模型对不同应⽤领域、业务场景进⾏统⼀建模。
(2)模型的稀疏性强：LS-PLM 在建模时引⼈了 L1 和 L2，1 范数，可以使最终训练出来的模型具有较⾼的稀疏度，使模型的部署更加轻量级。模型服务过程仅需使⽤权重⾮零特征，因此稀疏模型也使其在线推断的效率更⾼。

基础知识⼀为什么L1范数⽐ L2范数更容易产⽣稀疏解

在 2.3 节的“ 基础知识” 中定义了带有正则化项的模型损失函数如（式 2-9)所示。
当 q=1时，其正则化项就是 L1 范数正则化项；当 q=2时，其正则化项就是 L2范数正则化项。
正则化项的形式当然不是最重要的，最重要的是要理解 L1范数和 L2范数的特点，为什么在 LS-PLM 模型中加⼈ L1 范数能够增加模型的稀疏性呢？
在这里插入图片描述
求解加⼈正则化项的损失函数最⼩值，就是求解红圈上某⼀点和蓝圈上某⼀点之和的最⼩值。这个值通常在红⾊曲线和蓝⾊曲线的相切处(如果不在相切处，那么⾄少有两点值相同，与极值的定义⽭盾），⽽ L1范数曲线更容易与蓝⾊曲线在顶点处相交，这就导致除了相切处的维度不为零，其他维度的权重均为 0, 从⽽容易产⽣模型的稀疏解。

2.7.3 从深度学习的⻆度重新审视 LS-PLM 模型

在 LS-PLM 模型刚投⼈使⽤的 2012 年，距离深度学习在推荐系统领域成功应⽤还很遥远。但如果站在当今的时间节点上，从深度学习的⻆度重新审视LS-PLM 模型，某种意义上讲，LS-PLM 模型已经有了浓厚的深度学习的“ 味道”。
本节尝试⽤深度学习的思路去解释 LS-PLM 模型，当作对深度学习部分的⼀次预热。
LS-PLM 可以看作⼀个加⼈了注意⼒（Attention ）机制的三层神经⽹络模型，其中输⼈层是样本的特征向量，中间层是由 m 个神经元组成的隐层，其中m是分⽚的个数，对于⼀个 CTR 预估问题，LS-PLM 的最后⼀层⾃然是由单⼀神经元组成的输出层。
那么，注意⼒机制⼜是在哪⾥应⽤的呢？其实是在隐层和输出层之间，神经元之间的权重是由分⽚函数得出的注意⼒得分来确定的。也就是说，样本属于哪个分⽚的概率就是其注意⼒得分。
当然，上述从深度学习⻆度对 LS-PLM 模型的重新描述，更多是模型结构层⾯的理解，在具体细节上，必然同现在经典的深度学习模型有所区别。但不可否认的是，早在 2012年，LS-PLM 模型就已经⽤⾃⼰的⽅式接近深度学习的⼤⻔了。

2.8 总结—深度学习推荐系统的前夜

在 2.1 节中，笔者曾经提到希望读者在完成本章的学习后，回到 2.1 节的模型进化关系图中，把模型的细节知识重新嵌⼈整个推荐模型的知识框图。本节将对本章出现过的所有模型的特点进⾏总结（如表 2-4 所示），希望帮助读者再次回顾其中的关键知识。
在这里插入图片描述

在对传统的推荐模型进⾏总结时，读者也要意识到，传统推荐模型与深度学习模型之间存在着千丝万缕的联系。正是对传统模型研究的不断积累，为深度学习模型打下了坚实的理论和实践基础。
2006年，矩阵分解的技术成功应⽤在推荐系统领域，其隐向量的思想与深度学习中 Embedding 技术的思路⼀脉相承；2010年，FM 被提出，特征交叉的概念被引⼊推荐模型，其核⼼思想——特征交叉的思路也将在深度学习模型中被发扬光⼤；2012年，LS-PLM 在阿⾥巴巴⼤规模应⽤，其结构已经⾮常接近三层神经⽹络；2014 年，Facebook ⽤ GBDT ⾃动化处理特征，揭开了特征⼯程模型化的篇章。这些概念都将在深度学习推荐模型中继续应⽤，持续发光。
另外，Alex Krizhevsky 站在 Geoffrey Hinton、Yann LeCun、Yoshua Bengio等⼤师的肩膀上，于 2012年提出了引爆整个深度学习浪潮的 AlexNet[9] 将深度学习的⼤幕正式拉开，其应⽤快速地从图像扩展到语⾳，再到⾃然语⾔处理领域，推荐系统领域也必然紧随其后，投⼈深度学习的⼤潮之中。
从 2016年开始，随着 FNN Wide&Deep Deep Crossing 等⼀⼤批优秀的推荐模型架构的提岀，深度学习模型逐渐席卷推荐和⼴告领域，成为新⼀代推荐模型当之⽆愧的主流。笔者将在第 3章继续与读者探讨推荐模型的相关知识，从模型演化的⻆度，揭开主流深度学习推荐模型之间的关系和技术细节的⾯纱。

参考⽂献

略