【详细版】LS-PLM 的模型结构

LS-PLM,又被称为 MLR(Mixed Logistic Regression,混合逻辑回归)模型。本质上,LS-PLM可以看作对逻辑回归的自然推广,它在逻辑回归的基础上采用分而治之的思路,先对样本进行分片,再在样本分片中应用逻辑回归进行CTR预估。
在逻辑回归的基础上加入聚类的思想,其灵感来自对广告推荐领域样本特点的观察。举例来说,如果CTR模型要预估的是女性受众点击女装广告的CTR;那么显然,我们不希望把男性用户点击数码类产品的样本数据也考虑进来,因为这样的样本不仅与女性购买女装的广告场景毫无相关性,甚至会在模型训练过程中扰乱相关特征的权重。为了让CTR模型对不同用户群体、不同使用场景更有针对性,其采用的方法是先对全量样本进行聚类,再对每个分类施以逻辑回归模型进行CTR预估。LS-PLM的实现思路就是由该灵感产生的。
LS-PLM 的数学形式所示,首先用聚类函数π对样本进行分类(这里的π采用了softmax函数对样本进行多分类),再用LR模型计算样本在分片中具体的CTR,然后将二者相乘后求和。

其中的超参数“分片数”m可以较好地平衡模型的拟合与推广能力。当m=1时,LS-PLM 就退化为普通的逻辑回归。m越大,模型的拟合能力越强。与此同时,模型参数规模也随m的增大而线性增长,模型收敛所需的训练样本也随之增长。在实践中,阿里巴巴给出的m的经验值为12。

LS-PLM 模型适用于工业级的推荐、广告等大规模稀疏数据的场景,主要是因为其具有以下两个优势。
(1)端到端的非线性学习能力:LS-PLM 具有样本分片的能力,因此能够挖掘出数据中蕴藏的非线性模式,省去了大量的人工样本处理和特征工程的过程使 LS-PLM 算法可以端到端地完成训练,便于用一个全局模型对不同应用领域业务场景进行统一建模。
(2)模型的稀疏性强:LS-PLM 在建模时引人了L1和L2,1范数,可以使最终训练出来的模型具有较高的稀疏度,使模型的部署更加轻量级。模型服务过程仅需使用权重非零特征,因此稀疏模型也使其在线推断的效率更高。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值