LS-PLM学习笔记

本文介绍了LS-PLM(Learning Piece-wise Linear Models)的学习笔记,该模型旨在解决大规模广告点击预测问题。针对LR的非线性不足、GBDT+LR在超高维稀疏数据中的局限以及FM对多阶模式适应性不强的问题,LS-PLM采用分治策略,将特征空间划分为子区域,应用线性模型。LS-PLM的优势在于非线性、可扩展性和稀疏性。论文探讨了如何使用方向导数和拟牛顿方法解决正则化导致的目标函数非凸问题,并采用softmax和sigmoid函数。同时,提出了并行化实现的系统架构,用于优化训练效率。
摘要由CSDN通过智能技术生成

论文链接
Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction
首先介绍了传统的解决方案和局限性
(1)LR不能捕捉非线性
(2)GBDT+LR虽然能够产生非线性特征组合,但是树模型不适用于超高维稀疏数据
(3)FM利用二阶信息来产生变量之间的相关性,但是无法适应多阶模式
LS-PLM采用divide-and-conquer策略,将特征空间分割成若干个子区域,在每个区域采用线性模型,最后用weighted linear predictions组合结果
LS-PLM存在三个优势:Nonlinearity(源于子区域的划分)、Scalability(与LR相似,可并行)、Sparsity(用L1和L2)
论文基于directional derivatives(方向导数)和quasi-Newton(拟牛顿)方法来解决因为正则项使得目标函数非凸的问题。

这里写图片描述

用softmax函数作为dividing function以及sigmoid函数作为fitting function
其中part1 dividing function将特征空间分割成m歌不同的区域,而part 2对每个区域做预测
损失函数logloss
如何优化?
因为目标函数的负梯度方向并不存在,所以用能够得到f最小的方向导数的方向b作为负梯度的近似值。
论文给了两个定理:
(1)目标函数由smooth loss function with L1 and L2,1 norm,对于任意的参数空间和方向d,其方向导数 f(Θ;d)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值