逻辑回归——笔记

最新推荐文章于 2024-09-28 07:11:11 发布

last_summer_x

最新推荐文章于 2024-09-28 07:11:11 发布

阅读量97

点赞数

分类专栏：笔记文章标签：逻辑回归机器学习

本文链接：https://blog.csdn.net/last_summer_x/article/details/103103705

版权

笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

逻辑回归

指数族分布
对二项分布建模
sigmoid
参数估计

指数族分布

$P(y;\eta)=b(y)\exp{\left[ \eta^TT(y)-a(\eta) \right]}$
其中 $\eta$ 为自然参数， $T (y)$ 是充分统计量， $a(\eta)$ 是归一化因子

对二项分布建模

逻辑回归假设目标变量服从二项分布
$\begin{aligned} P(y;\theta)&=\phi^y(1-\phi)^{1-y}\\ &=\exp{\left[ y\log \phi+(1-y)\log(1-\phi) \right]}\\ &=\exp{\left[ (\log{\frac{\phi}{1-\phi})y+\log{(1-\phi)}} \right]} \end{aligned}$
令 $\log{\frac{\phi}{1-\phi}}=\eta$ ，然后得出 $\phi=\frac{1}{1+e^{-\eta}}$ ，这便是sigmoid函数的来源，我们用sigmoid函数将 $\eta$ 转换后，作为二项分布的概率。记
$sigmoid(x)=\sigma(x)=\frac{1}{1+e^{-x}}$

sigmoid

sigmoid函数的导数为
$\begin{aligned} \frac{d \sigma(x)}{dx}&=\frac{e^{-x}}{(1+e^{-x})^2}\\ &=\frac{1}{1+e^{-x}}\frac{e^{-x}}{1+e^{-x}}\\ &=\frac{1}{1+e^{-x}}\frac{(1+e^{-x})-1}{1+e^{-x}}\\ &=\frac{1}{1+e^{-x}}\left( 1-\frac{1}{1+e^{-x}} \right)\\ &=\sigma(x)(1-\sigma(x)) \end{aligned}$

参数估计

这里我们还有一个假设 $\eta=\theta^Tx$ ，使用最大似然估计对参数 $\theta$ 进行估计。
$L(\theta)=\prod_{i=1}^{n}p(y^{(i)};\theta)=\prod_{i=1}^{n}\sigma(x)^y(1-\sigma(x)^{1-y})$
转化为对数似然函数
$\begin{aligned} \ell\theta)&=\sum_{i=1}^{n}{\log{p(y^{(i)};\theta)}}\\ &=\sum_{i=1}^{n}{\log{\sigma(x^{(i)})^{y^{(i)}}(1-\sigma(x^{(i)}))^{1-y^{(i)}}}}\\ &=\sum_{i=1}^{n}{\left[ y^{(i)}\log{\sigma(x^{(i)})+(1-y^{(i)})\log{(1-\sigma(x^{(i)}))}} \right]} \end{aligned}$
然后对 $\ell(\theta)$ 求偏导
$\begin{aligned} \frac{\partial \ell \left( \theta \right)}{\partial \theta}&=\frac{\partial \ell \left( \theta \right)}{\partial \sigma \left( x \right)}\frac{\partial \sigma \left( x \right)}{\partial \theta ^Tx}\frac{\partial \theta ^Tx}{\partial \theta}\\ &=\left( \frac{y}{\sigma \left( x \right)}-\frac{1-y}{1-\sigma \left( x \right)} \right) \left[ \sigma \left( x \right) \left( 1-\sigma \left( x \right) \right) \right] x\\ &=\left[ y\left( 1-\sigma \left( x \right) \right) -\left( 1-y \right) \sigma \left( x \right) \right] x\\ &=\left[ y-y\sigma \left( x \right) -\sigma \left( x \right) +y\sigma \left( x \right) \right] x\\ &=\left( y-\sigma \left( x \right) \right) x\\ \end{aligned}$
采用随机梯度下降，即每次只使用一个样本 $\left( x^{\left( i \right)},y^{\left( i \right)} \right)$ 计算偏导，故 $\theta$ 的更新策略为
$\theta:=\theta+\alpha(y^{(i)}-\sigma(x^{(i)}))x^{(i)}$