【Datawhale-机器学习-Task03-对数几率回归】-CSDN博客

本文链接：https://blog.csdn.net/qumule/article/details/139882595

第三章：对数几率回归
因为之前介绍的回归学习，不满足二分类任务需求，回归模型产生的预测值是实值，需要将其转换成0/1值。
因此引出Sigmoid函数：

y=\frac{1}{1+e^{-z}}

将y作为x的正例可能性，则1-y是其反例的可能性，有

\ln\frac{y}{1-y}= \mathbf{w} ^{T}\mathbf{x} +b

\frac{y}{1-y}

称为几率，

ln\frac{y}{1-y}

称为对数几率。

\ln\frac{p\left ( y=1\mid x \right ) }{ p\left ( y=0\mid x \right ) } = w^{T} x+b

p\left ( y=1\mid x \right ) =\frac{e^{w^{T}x+b } }{1+e^{w^{T}x+b } }

p\left ( y=0\mid x \right ) =\frac{1}{1+e^{w^{T}x+b } }

通过极大似然法来估计w和b，有

\ell\left ( w,b \right ) \sum_{i=1}^{m} \ln p\left ( y_{i}\mid x_{i};w,b \right )

$\ell\left ( \beta \right ) =\sum_{i=1}^{m}\ln\left ( y_{i}p_{1} \left ( \widehat{x}_{i};\beta \right ) +\left ( 1- y_{i}\right )p_{0}\left ( \widehat{x}_{i} ;\beta \right ) \right )$
将 $p_{0}\left ( \widehat{x}_{i} ;\beta \right )=\frac{1}{1+e^{\beta T\widehat{x}_{i}}}$ 、 $p_{1}\left ( \widehat{x}_{i} ;\beta \right )=\frac{e^{\beta T\widehat{x}_{i}}}{1+e^{\beta T\widehat{x}_{i}}}$ 带入上式可得

\ell\left ( \beta \right ) =\sum_{i=1}^{m} \ln\left ( y_{i} \frac{e^{\beta T\widehat{x}_{i}}}{1+e^{\beta T\widehat{x}_{i}}} +\left ( 1-y_{i} \right )\frac{1}{1+e^{\beta T\widehat{x}_{i}}} \right )

\ell\left ( \beta \right ) =\sum_{i=1}^{m} \ln\left ( \frac{y_{i}e^{\beta T\widehat{x}_{i}}+\left ( 1-y_{i} \right ) }{1+e^{\beta T\widehat{x}_{i}}} \right )

\ell\left ( \beta \right ) =\sum_{i=1}^{m} \left ( \ln\left ( y_{i}e^{\beta T\widehat{x}_{i}}+1- y_{i} \right ) -ln\left ( 1+e^{\beta T\widehat{x}_{i}} \right ) \right )

由于

y_{i} =0或1

，因此
当

y_{i} =0

时有，

\ell(\boldsymbol{\beta})=\sum_{i=1}^{m} \left (-\ln \left ( 1+e^{\beta T\widehat{x}_{i}} \right ) \right )

当

y_{i} =1

时有，

\ell(\boldsymbol{\beta})=\sum_{i=1}^{m} \left (y_{i} \beta ^{T}\widehat{x}_{i} -\ln \left ( 1+e^{\beta T\widehat{x}_{i}} \right ) \right )

综合可得

\ell(\boldsymbol{\beta})=\sum_{i=1}^{m}\left(y_{i} \boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}_{i}-\ln \left(1+e^{\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}_{i}}\right)\right)

信息论：
自信息：
信息熵：自信心的期望值，用于度量随机变量X的不确定性，值越大代表越不确定。
相对熵：度量两个分布的差异，其典型使用场景是用来度量理想分布p(x)—和模拟分布q(x)之间的差异。

D_{KL}\left ( p\parallel q \right )=\sum_{x}^{} p\left ( x \right ) \log_{b}{\frac{p\left ( x \right ) }{q\left ( x \right ) } }

D_{KL}\left ( p\parallel q \right )=\sum_{x}^{} p\left ( x \right ) \left ( \log_{b}{p\left ( x \right ) }- \log_{b}{q\left ( x \right ) } \right )

D_{KL}\left ( p\parallel q \right )=\sum_{x}^{} p\left ( x \right ) \left ( \log_{b}{p\left ( x \right ) } \right )-\sum_{x}^{} p\left ( x \right ) \log_{b}{q\left ( x \right ) }

其中，

-\sum_{x}^{} p\left ( x \right ) \log_{b}{q\left ( x \right ) }

称为 交叉熵。

根据频率学派的观点，p(x)未知但是固定，因此 $\sum_{x}^{} p\left ( x \right ) \log_{b}{p\left ( x \right ) }$ 为常数，所以要使得相对熵最大化，则需要最小化交叉熵即可。
理想分布

p(y_{i} )=\left\{ \begin{aligned} p\left ( 1 \right ) = 1,p\left ( 0 \right ) = 0,y_{i}=1 \\ p\left ( 1 \right ) = 0,p\left ( 0 \right ) = 1,y_{i}=0 \end{aligned} \right.

模拟分布

q(y_{i} )=\left\{ \begin{aligned} \frac{e^{\beta ^{T}\widehat{x} }}{1+e^{\beta ^{T}\widehat{x} } } = p_{1}\left ( \widehat{x};\beta \right ),y_{i}=1 \\ \frac{1}{1+e^{\beta ^{T}\widehat{x} } } = p_{0}\left ( \widehat{x};\beta \right ) ,y_{i}=0 \end{aligned} \right.

则交叉熵为

-\sum_{y_{i}}^{} p\left ( y_{i} \right ) \log_{b}{q\left ( y_{i} \right ) }

-p\left ( 1 \right ) \log_{b}{p_{1}\left ( \widehat{x};\beta \right )} -p\left ( 0 \right ) \log_{b}{p_{0}\left ( \widehat{x};\beta \right )}

-y_{i} \log_{b}{p_{1}\left ( \widehat{x};\beta \right )} -\left ( 1-y_{i} \right ) \log_{b}{p_{0}\left ( \widehat{x};\beta \right )}

令 b=e，则有

-y_{i} \ln_{b}{p_{1}\left ( \widehat{x};\beta \right )} -\left ( 1-y_{i} \right ) \ln_{b}{p_{0}\left ( \widehat{x};\beta \right )}

最终化简可得：
$\sum_{i=1}^{m}\left(y_{i} \boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}_{i}-\ln \left(1+e^{\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}_{i}}\right)\right)$
总而言之，殊途同归。

梯度下降法：是一种迭代求解算法，利用“梯度指向的方向是函数值增大速度最快的方向”这一特性，每次迭代时都朝着梯度的反方向进行，进而实现函数值越迭代越小。
牛顿法：与梯度下降法一样，只不过还要求 $x^{t+1}$ 必须是 $x^{t}$ 领域内的极小值点。

感谢Datawhale小组所做的贡献，本次学习主要参考视频：
https://www.bilibili.com/video/BV1Mh411e7VU/?p=5&spm_id_from=333.880.my_history.page.click&vd_source=7f1a93b833d8a7093eb3533580254fe4