十一.Logistic回归原理

最新推荐文章于 2024-05-12 15:04:03 发布

stackooooover

最新推荐文章于 2024-05-12 15:04:03 发布

阅读量451

点赞数

分类专栏：机器学习理论基础

本文链接：https://blog.csdn.net/weixin_36128607/article/details/118145357

版权

机器学习理论基础专栏收录该内容

39 篇文章 8 订阅

订阅专栏

1.回归和分类

回归的预测值 $y$ 为连续值，分类的预测值 $y$ 为离散值。
Logistic回归的名字中虽然有回归二字，但其实是二分类算法。

2.Logistic函数

Logistic函数为两端饱和S型曲线函数，它将自变量的输出值固定在 $[0, 1]$ 区间上。
Logistic函数原型为：
$g(z)=\frac{1}{1+e^{-z} }$
它的导数为：
$g(z)=\frac{e^{-z} }{(1+e^{-z})^{2} } =(\frac{1}{1+e^{-z} } )(1-\frac{1}{1+e^{-z} } )=g(z)(1-g(z))$

3.Logistic回归模型

Logistic回归通过Logistic函数，将输出固定在 $[0, 1]$ 区间。通常情况下，当输出小于 $0.5$ 时，输出为0；当时输出大于 $0.5$ 时，输出为1：
$h_{\theta }(\mathbf{x}) =\frac{1}{1-e^{\mathbf{-\theta ^{T} x} } } ,\theta \in R^{n\times 1},\mathbf{x}\in R^{n\times 1} ,h_{\theta }(\mathbf{x}) \in R$

4.损失函数推导

对于Logistic的损失函数，通常有两种解释。

(1)交叉熵

可以用信息论中的交叉熵衡量预测值 $h_{\theta}(\mathbf{x})$ 和真实值 $y$ 之间的距离，交叉熵越小，效果越好:
$J(\theta )=-\sum_{i=1}^{m}[y^{i}\log h(\mathbf{\theta ^{T}X^{i}})+(1-y^{i} )(1-\log h(\mathbf{\theta ^{T}X^{i}})) ]$
其中， $\mathbf{X^{i}}\in R^{n\times 1} ,y\in R，\theta \in R^{n\times 1}$ 。

(2)极大似然估计

使用极大似然估计，估计每个某个样本是某个类别的概率最大的时候的参数。
由于 $h(\mathbf{\theta ^{T}x})$ 的范围为[0,1]，可将其看做概率分布：
$\left.\begin{matrix} P(y=1|\mathbf{x},\theta )=h(\theta ^{T}\mathbf{x} )\\ P(y=0|\mathbf{x},\theta )=1-h(\theta ^{T}\mathbf{x} ) \end{matrix}\right\}\to P(y|\mathbf{x},\theta )=h(\theta ^{T}\mathbf{x})^{y} (1-h(\theta ^{T}\mathbf{x}))^{1-y}$
假设每个样本之间相互独立，则似然函数为：
$L(\theta ) =\prod_{i=1}^{m} h(\mathbf{\theta ^{T}x^{i}} )^{y^{i} } (1-h(\mathbf{\theta ^{T}x^{i}} ))^{1-y^{i} }$
将似然函数取对数再取反作为损失函数，则极大似然估计转化为极小化损失函数：
$J(\theta )=-\sum_{i=1}^{m}[y^{i}\log h(\mathbf{\theta ^{T}X^{i}})+(1-y^{i} )(1-\log h(\mathbf{\theta ^{T}X^{i}})) ]$
可以看到，极大似然估计所得到的损失函数与交叉熵相同。

5.参数学习的计算方法

Logistic回归的参数学习方法一般为梯度下降法。梯度下降的关键是求损失函数对参数的梯度，这里用两种方法来给出梯度下降过程。

(1)代数法

损失函数：
$J(\theta )=-\sum_{i=1}^{m}[y^{i}\log h(\mathbf{\theta ^{T}X^{i}})+(1-y^{i} )(1-\log h(\mathbf{\theta ^{T}X^{i}})) ]$
其中， $J(\theta )\in R,h(\theta^{T} \mathbf{X^{i}} )\in R,\mathbf{X^{i}}\in R^{n\times 1} ,y\in R，\theta \in R^{n\times 1}$ 。欲求 $\frac{\partial J(\theta )}{\partial \theta }$ ，标量对向量求导，使用链式法则：
$\begin{aligned} \frac{\partial J(\theta )}{\partial \theta } &=-\sum_{i=1}^{m}[y^{i}\frac{1}{h(\theta^{T} \mathbf{X}^{i} )}+(1-y^{i})(1-\frac{1}{h(\theta^{T} \mathbf{X}^{i})})]\frac{\partial h(\theta^{T} \mathbf{X}^{i})}{\partial \theta^{T} \mathbf{X}^{i}}\frac{\partial \theta^{T} \mathbf{X}^{i}}{\partial \theta^{T}}（对h(\theta^{T} \mathbf{X}^{i})求导） \\ &=-\sum_{i=1}^{m}[y^{i}\frac{1}{h(\theta^{T} \mathbf{X}^{i} )}+(1-y^{i})(1-\frac{1}{h(\theta^{T} \mathbf{X}^{i})})]h(\theta^{T} \mathbf{X}^{i})(1-h(\theta^{T} \mathbf{X}^{i}))\mathbf{X}^{i}（Logistic函数求导） \\ &=-\sum_{i=1}^{m}[y^{i}(1-h(\theta^{T} \mathbf{X}^{i} ))+(1-y^{i})(1-h(\theta^{T} \mathbf{X}^{i} )] \mathbf{X}^{i}(合并同类项) \\ &=\sum_{i=1}^{m} [h(\theta^{T} \mathbf{X}^{i} )-y^{i}]\mathbf{X}^{i} \end{aligned}$
则第 $k$ 轮的梯度为：
$\sum_{i=1}^{m} [h(\theta^{T} \mathbf{X}^{i} )-y^{i}]\mathbf{X}^{i}$
第 $k + 1$ 次的迭代值为：
$\theta^{k+1}=\theta^{k}-\lambda\sum_{i=1}^{m} [h(\theta^{T} \mathbf{X}^{i} )-y^{i}]\mathbf{X}^{i}$

(2)矩阵法

矩阵法的表示更加简洁明了，计算更方便。矩阵法表示损失函数为：
$J(\theta )=-\mathbf{y} ^{T}\log h(\mathbf{X\theta } )-(\mathbf{E-y} )^{T} \log (\mathbf{E}-h(\mathbf{X\theta})),h(\mathbf{X\theta})=\frac{1}{1+e^{\mathbf{X\theta }} }$
其中，各项维度为下：
$\mathbf{y}\in R ^{m\times 1} 为one-hot向量，E\in R ^{m\times 1}为全1向量,\mathbf{X} \in R ^{m\times n},\theta \in R^{n\times 1},h(\mathbf{X\theta } ) \in R^{m\times 1},J(\theta ) \in R。$
求 $\frac{\partial J(\theta )}{\partial \theta }$ ，可以拆分为：
$\frac{\partial J(\theta )}{\partial \theta } =-\frac{\partial \mathbf{y} ^{T}\log h(\mathbf{X\theta } )}{\partial \theta }-\frac{\partial (\mathbf{E-y} )^{T} \log (\mathbf{E}-h(\mathbf{X\theta}))}{\partial \theta }$
根据标量对向量求导的链式法则，对中间量 $\mathbf{X\theta }$ 求导，上式可进一步写成：
$\frac{\partial J(\theta )}{\partial \theta } =-(\frac{\partial \mathbf{X\theta }}{\partial \theta })^{T} \frac{\partial \mathbf{y} ^{T}\log h(\mathbf{X\theta } )}{\partial \mathbf{X\theta } }-(\frac{\partial \mathbf{X\theta }}{\partial \theta })^{T} \frac{\partial (\mathbf{E-y} )^{T} \log (\mathbf{E}-h(\mathbf{X\theta}))}{\partial \mathbf{X\theta }}$
上式中：
$(\frac{\partial \mathbf{X\theta }}{\partial \theta })^{T} =\mathbf{X} ^{T}$
再分别求另外两项：
①求 $\frac{\partial \mathbf{y} ^{T}\log h(\mathbf{X\theta } )}{\partial \mathbf{X\theta } }$ ，标量对向量求导，使用矩阵微分：
$\begin{aligned} d \mathbf{y} ^{T}\log h(\mathbf{X\theta } )&=tr[d \mathbf{y} ^{T}\log h(\mathbf{X\theta } )]（标量的转置） \\&=tr[\mathbf{y} ^{T}d\log h(\mathbf{X\theta } )](矩阵微分乘法法则) \\&=tr[\mathbf{y} ^{T}\odot\frac{1}{h(\mathbf{X\theta } ) }\odot h(\mathbf{X\theta } )\odot (E-h(\mathbf{X\theta } ))d(\mathbf{X\theta })](逐元素微分) \\&=tr[\mathbf{y} ^{T}\odot E \odot (E-h(\mathbf{X\theta } ))d(\mathbf{X\theta })](合并同类项) \\&=tr[\mathbf{y} ^{T}-\mathbf{y} ^{T}\odot h(\mathbf{X\theta })]d(\mathbf{X\theta })(合并同类项) \end{aligned}$
最终求得：
$\frac{\partial \mathbf{y} ^{T}\log h(\mathbf{X\theta } )}{\partial \mathbf{X\theta } }=(\mathbf{y} ^{T}-\mathbf{y} ^{T}\odot h(\mathbf{X\theta }))^{T}=\mathbf{y}-\mathbf{y}\odot h(\mathbf{X\theta })$
②求 $\frac{\partial (\mathbf{E-y} )^{T} \log (\mathbf{E}-h(\mathbf{X\theta}))}{\partial \mathbf{X\theta}}$ ，标量对向量求导，使用矩阵微分:
$\begin{aligned} d[(\mathbf{E-y} )^{T} \log (\mathbf{E}-h(\mathbf{X\theta}))]&=tr[d((\mathbf{E-y} )^{T} \log (\mathbf{E}-h(\mathbf{X\theta})))]（标量的迹） \\&=tr[(\mathbf{E-y} )^{T} d\log (\mathbf{E}-h(\mathbf{X\theta}))]（矩阵乘法法则） \\&=tr[-(\mathbf{E-y} )^{T}\odot\frac{1}{\mathbf{E}-h(\mathbf{X\theta}))}\odot h(\mathbf{X\theta})\odot (\mathbf{E}-h(\mathbf{X\theta}))d\mathbf{X\theta}]（逐元素微分） \\&=tr[-(\mathbf{E-y} )^{T}\odot h(\mathbf{X\theta})d\mathbf{X\theta} ] \end{aligned}$
最终得：
$\frac{\partial (\mathbf{E-y} )^{T} \log (\mathbf{E}-h(\mathbf{X\theta}))}{\partial \mathbf{X\theta}}=[-(\mathbf{E-y} )^{T}\odot h(\mathbf{X\theta})d\mathbf{X\theta} ]^{T} =-(\mathbf{E-y} )\odot h(\mathbf{X\theta})d\mathbf{X\theta}=\mathbf{y}\odot h(\mathbf{X\theta})- h(\mathbf{X\theta})$
综上，最终得损失函数对参数的梯度：
$\begin{aligned} \frac{\partial J(\theta )}{\partial \theta } &=-(\frac{\partial \mathbf{X\theta }}{\partial \theta })^{T} \frac{\partial \mathbf{y} ^{T}\log h(\mathbf{X\theta } )}{\partial \mathbf{X\theta } }-(\frac{\partial \mathbf{X\theta }}{\partial \theta })^{T} \frac{\partial (\mathbf{E-y} )^{T} \log (\mathbf{E}-h(\mathbf{X\theta}))}{\partial \mathbf{X\theta }} \\&=\mathbf{X} ^{T} [-\mathbf{y}+\mathbf{y}\odot h(\mathbf{X\theta })-\mathbf{y}\odot h(\mathbf{X\theta})+h(\mathbf{X\theta}) ] \\&=\mathbf{X} ^{T} [h(\mathbf{X\theta})-\mathbf{y}] \end{aligned}$
则第 $k$ 次迭代的梯度向量为：
$\mathbf{X} ^{T} [h(\mathbf{X\theta}^{k})-\mathbf{y}]$
第 $k + 1$ 次的迭代值为：
$\theta^{k+1}=\theta^{k}-\lambda\mathbf{X} ^{T} [h(\mathbf{X\theta}^{k})-\mathbf{y}]$

6.Logistic模型正则化

L1正则：
$J(\theta )=-\mathbf{y} ^{T}\log h(\mathbf{X\theta } )-(\mathbf{E-y} )^{T} \log (\mathbf{E}-h(\mathbf{X\theta}))+\lambda ||\theta ||_{1}$
L2正则：
$J(\theta )=-\mathbf{y} ^{T}\log h(\mathbf{X\theta } )-(\mathbf{E-y} )^{T} \log (\mathbf{E}-h(\mathbf{X\theta}))+\lambda ||\theta ||_{2}^{2}$

stackooooover

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
十一.Logistic回归原理

目录1.回归和分类2.Logistic函数3.Logistic回归模型4.损失函数(1)交叉熵(2)极大似然估计1.回归和分类回归的预测值yyy为连续值，分类的预测值yyy为离散值。Logistic回归的名字中虽然有回归二字，但其实是二分类算法。2.Logistic函数Logistic函数为两端饱和S型曲线函数，它将自变量的输出值固定在[0,1][0,1][0,1]区间上。Logistic函数原型为：g(z)=11+e−zg(z)=\frac{1}{1+e^{-z} } g(z)=1+e−
复制链接

扫一扫