MLR（mixed logistic regression）模型

最新推荐文章于 2024-08-06 22:16:36 发布

肯德基套餐

最新推荐文章于 2024-08-06 22:16:36 发布

阅读量6.8k

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/dpengwang/article/details/105760862

版权

深度学习专栏收录该内容

16 篇文章 1 订阅

订阅专栏

基本形式

MLR模型是阿里巴巴12年提出（17年发表）点击率预估模型，它利用分段方式对数据进行拟合，相比LR模型，能够学习到更高阶的特征组合。其基本表达式如下
$x)=g\left(\sum_{j=1}^{m} \sigma\left(u_{j}^{T} x\right) \eta\left(w_{j}^{T} x\right)\right) \qquad(1)$ 该模型的参数为 $\Theta=\left\{u_{1}, \cdots, u_{m}, w_{1}, \cdots, w_{m}\right\} \in \mathbb{R}^{d \times 2 m}$
$\sigma(\cdot)$ 为分段函数，其参数为 $\left\{u_{1}, \cdots, u_{m}\right\}$
$\eta(\cdot)$ 为拟合函数，其参数为 $\left\{w_{1}, \cdots, w_{m}\right\}$
$u$ 和 $w$ 都是 $d$ 维的向量， $d$ 为特征的维度，即每个特征都有对应的两个权重
$g$ 是可以理解为激活函数，将模型结果变成需要的形式，比如分类问题中变成概率。

该预测函数包含两个部，首先通过 $\sigma\left(u_{j}^{T} x\right)$ 将当前特征分到 $m$ 个不同的区域中，再用 $\eta\left(w_{j}^{T} x\right)$ 函数进行预测，最终将这 $m$ 个结果进行求和。如图所示，相当于先把数据映射到两个部分，再将这两个部分融合到一起。
在这里插入图片描述
论文指出对于LR模型不能正确分类的数据，MLR能够有较好的效果

特例形式

当 $\sigma(x)$ 为softmax, $\eta(x)$ 为sigmoid， $g (x)$ 为x是，（1）式可以写成：
$x)=\sum_{i=1}^{m} \frac{\exp \left(u_{i}^{T} x\right)}{\sum_{j=1}^{m} \exp \left(u_{j}^{T} x\right)} \cdot \frac{1}{1+\exp \left(-w_{i}^{T} x\right)}$

目标函数

目标函数如公式（2）所示
$\arg \min _{\Theta} f(\Theta)=\operatorname{loss}(\Theta)+\lambda\|\Theta\|_{2,1}+\beta\|\Theta\|_{1} \qquad (2)$ $\operatorname{loss}(\Theta)$ 根据不同场景下不同，比如二分类用交叉熵作为损失函数：
$\operatorname{loss}(\Theta)=-\sum_{t=1}^{n}\left[y_{t} \log \left(p\left(y_{t}=1 | x_{t}, \Theta\right)\right)+\left(1-y_{t}\right) \log \left(p\left(y_{t}=0 | x_{t}, \Theta\right)\right)\right]$

后面为正则项，其中
$\|\Theta\|_{1}=\sum_{i j}\left|\theta_{i j}\right|$ 是对每个参数的L1正则，保证所有参数的稀疏性；
$\|\Theta\|_{2,1}=\sum_{i=1}^{d} \sqrt{\sum_{j=1}^{2 m} \theta_{i j}^{2}}$ 是对L2正则的L1正则，根号里面是对某个特征的 $2 m$ 个参数的L2正则，外面是L1,这样是为了保证特征的稀疏性，做feature selection。
正则部分相当于对整体参数和按照特征分组的参数分别做了正则，既在最细粒度上筛选参数也在较粗的粒度上筛选特征。