【读书笔记-＞推荐系统】02-06 LS-PLM_large scale piece-wise linear model-CSDN博客

本文链接：https://blog.csdn.net/bill2766/article/details/122500509

02-06 LS-PLM

在这里插入图片描述

LS-PLM(Large Scale Piece-wise Linear Model，大规模分段线性模型)。这个是本书的最后一例机器学习模型。原因有二：该模型在2012年已经是阿里巴巴主流的推荐模型，2017年才被公之于众；其结构与三层神经网络极其相似。

LS-PLM, 又被称为 MLR( Mixed Logistic Regression, 混合逻辑回归）模型。本质上，LS-PLM 可以看作对逻辑回归的自然推广，它在逻辑回归的基础上采用分而治之的思路，先对样本进行分片，再在样本分片中应用逻辑回归进行 CTR预估。

文中给了一个例子：如果CTR（点击率）模型要预估的是女性受众点击女装广告的 CTR；那么显然，我们不希望把男性用户点击数码类产品的样本数据也考虑进来，因为这样的样本（指男性数码类产品）不仅与女性购买女装的广告场景毫无相关性，甚至会在模型训练过程中扰乱相关特征的权重。

为了让 CTR 模型对不同用户群体、不同使用场景更有针对性，其采用的方法是先对全量样本进行聚类，再对每个分类施以逻辑回归模型进行 CTR 预估。

LS-PLM 的数学形式如（式 2-23 )所示，首先用聚类函数π 对样本进行分类(这里的π采用了softmax 函数对样本进行多分类），再用 LR 模型计算样本在分片中具体的 CTR 然后将二者相乘后求和。

在这里插入图片描述

softmax：一句话概括，是将多分类的结果以概率的形式展现出来，比如下图中三个值转换为概率0.88, 0.12, 0。文末有参考文献[1]。而公式中π(x)或 $\frac{e^{\mu_i x}}{\sum e^{\mu_j x}}$ 就是softmax函数。

后面的公式 $\eta(x)$ 或 $\frac{1}{1+e^{-w_i x}}$ 是LR（逻辑回归模型）， $w * x$ 是所有的特征*权重之和， $\frac{1}{1+e^{空}}$ 是sigmoid函数。

其中的超参数“分片数”m可以较好地平衡模型的拟合与推广能力。当 m=1时，LS-PLM 就退化为普通的逻辑回归。w 越大，模型的拟合能力越强，需要的训练样本也越多。

( 1 ) 端到端的非线性学习能力：LS-PLM 具有样本分片的能力，因此能够挖掘出数据中蕴藏的非线性模式，省去了大量的人工样本处理和特征工程的过程，使 LS-PLM 算法可以端到端地完成训练，便于用一个全局模型对不同应用领域、业务场景进行统一建模。

( 2 ) 模型的稀疏性强：LS-PLM 在建模时引人了 L1 和 L2,1范数，可以使最终训练出来的模型具有较高的稀疏度，使模型的部署更加轻量级。模型服务过程仅需使用权重非零特征，因此稀疏模型也使其在线推断的效率更高。

基础知识一为什么L1 范数比 L2 范数更容易产生稀疏解？见文末参考文献[2,3]

LS-PLM 可以看作一个加人了注意力 Attention )机制的三层神经网络模型，其中输人层是样本的特征向量，中间层是由 m 个神经元组成的隐层，其中m是分片的个数，对于一个 CTR 预估问题，LS-PLM 的最后一层自然是由单一神经元组成的输出层。

那么，注意力机制又是在哪里应用的呢？其实是在隐层和输出层之间，神经元之间的权重是由分片函数得出的注意力得分来确定的。也就是说，样本属于哪个分片的概率就是其注意力得分。