逻辑斯蒂回归模型

最新推荐文章于 2022-06-23 21:33:02 发布

_风过留声

最新推荐文章于 2022-06-23 21:33:02 发布

阅读量270

点赞数

分类专栏：机器学习文章标签：机器学习算法

本文链接：https://blog.csdn.net/sinat_41498648/article/details/107523685

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

本文主要根据周志华的西瓜书以及李航的《统计学习方法》中提到的方法，结合自己的想法进行记录的文档，部分概念可能理解不够透彻表述会有问题。

对于观察到的样本集 ${(x_i,y_i)\}$ , $i=1,...,N.x_i\in\R^n,y_i\in\{0,1\}$ ，设这组数据的分布情况是满足二项逻辑斯蒂分布的，然后对他进行参数估计。设

$P(Y=1|x)=\frac{e^{wx}}{1+e^{wx}}=\pi(x)$
$P(Y=0|x)=\frac{1}{1+e^{wx}}=1-\pi(x)$
其中 $w\in\R^n, wx$ 是两个n维向量的内积
将两个表达式写成一个，则有
$P(Y=y_i|X=x_i)=\pi(x_i)^{y_i}(1-\pi(x_i))^{1-y_i}$
令 $Z$ 表示，“样本集的N个事件同时发生”，则有
$P(Z)=P((Y=y_1|X=x_1)\cap(Y=y_2|X=x_2)\cap...\cap(Y=y_n|X=x_n))$ ，而对于这些观察到的样本集的数据，通常都是假设其满足独立同分布的条件的，独立则有事件交的概率等于概率的乘积，同分布即都服从同一组参数下的二项逻辑斯蒂分布。从而有
$P(Z)=P((Y=y_1|X=x_1)\cap(Y=y_2|X=x_2)\cap...\cap(Y=y_n|X=x_n))$
$=P(Y=y_1|X=x_1)\cdot\cdot\cdot P(Y=y_n|X=x_n)$
而我们进行参数估计就是在这组已知的观察数据的基础上，找到让观察数据出现，即事件 $Z$ 出现概率最大的那组参数。比如有一组参数 $w_1$ ,得到 $Z$ 发生的概率是 $p_1$ ，参数 $w_2$ 得到 $Z$ 发生的概率是 $p_2$ ,如果 $p_1>p_2$ ,那么显然，参数 $w_1$ 更加适合这组数据，即在参数 $w_1$ 下，事件 $Z$ 更有可能发生。概念的问题理清后剩下的问题就是函数最值的问题了。
$\argmax\limits_{w}P(Z):=\prod\limits_{i=1}^{N}P(Y=y_i|X=x_i)$
$=\prod\limits_{i=1}^{N}\pi(x_i)^{y_i}(1-\pi(x_i))^{1-y_i}$
表达式右边有指数乘积比较麻烦，可以在两边取对数。因为对数函数是单增的，所以参数 $w^*$ 使得 $P (Z)$ 达到最大值，那么其肯定也使 $L p (Z)$ 达到最大值。
$Lp(Z)=\sum\limits_{i=1}^{N}y_i\ln\pi(x_i)+(1-y_i)\ln(1-\pi(x_i))$
$=\sum\limits_{i=1}^{N}y_i\ln\frac{\pi(x_i)}{1-\pi(x_i)}+\ln(1-\pi(x_i))$
$=\sum\limits_{i=1}^{N}y_i\ln e^{wx_i}-\ln(1+e^{wx})$
$=\sum\limits_{i=1}^{N}y_iwx_i-\ln(1+e^{wx_i})$
上式是一个关于参数 $w$ 的函数，函数最值问题研究，无非就是求导考虑区间单调性，极值点。先求导
$\frac{\partial Lp}{\partial w_j}=\sum\limits_{i=1}^{N}y_ix_i^{(j)}-\frac{e^{wx_i}}{1+e^{wx_i}}\cdot x_i^{(j)}$
其中 $x_i^{(j)}$ 表示向量 $x_i$ 的第 $j$ 个分量。
化简得，上式
$=\sum\limits_{i=1}^{N}y_ix_i^{(j)}-\pi(x_i)x_i^{(j)}$
$=\sum\limits_{i=1}^{N}(y_i-\pi(x_i))x_i^{(j)}$

令上式等于0，即可求出 $w$ ，但有两个问题，
1.表达式有线性部分，有指数部分，妥妥的超越方程，似乎没有理论精确解（可能有，但我不会）
2.倒数为0的点是极值点没错，不知道是极大值还是极小值，而且极值点也不一定就是最值点。

先研究第二个问题，先从低维开始，当 $w, x$ 的维数都是一维的时候有
$\frac{\partial Lp}{\partial w}=\sum\limits_{i=1}^{N}(y_i-\pi(x_i))x_i$
从而有
$\frac{\partial^2 Lp}{\partial w^2}=\sum\limits_{i=1}^N\frac{-x_i^2e^{wx_i}}{(1+e^{wx_i})^2}<0$
函数 $L p (Z)$ 的二阶导恒小于0，说明一阶导函数是一个单调减函数，也就是说一阶导为0的点左边是恒大于0的，右边是恒小于0的，从而原函数 $L p (Z)$ 在零点左侧单调增（导函数在该区间恒正），右侧单调减，从而一阶导为0点为函数 $L p (Z)$ 在整个区间的最大值点。
当 $w, x$ 的维数是两维时，多元函数求最值通常用拉格朗日乘数法或者黑塞矩阵，这里先计算其黑塞矩阵为
$\left[ \begin{matrix} \sum_{i=1}^N-t(x_i)(x_i^{(1)})^2& \sum_{i=1}^N-t(x_i)x_i^{(1)}x_i^{(2)}\\ \sum_{i=1}^N-t(x_i)x_i^{(1)}x_i^{(2)}&\sum_{i=1}^N-t(x_i)(x_i^{(2)})^2 \end{matrix} \right]$
其中 $t(x_i)=\frac{e^{wx_i}}{(1+e^{wx_i})^2}$ ,恒大于0
$x_i^{(1)}$ 是 $x_i$ 的第一维数据
因为顺序主子式中
$\sum_{i=1}^N-t(x_i)(x_i^{(1)})^2<0$
$\sum_{i=1}^N-t(x_i)(x_i^{(1)})^2\cdot\sum_{i=1}^N-t(x_i)(x_i^{(2)})^2-(\sum_{i=1}^N-t(x_i)x_i^{(1)}x_i^{(2)})^2$
$=\sum_{i=1}^N(\sqrt{t(x_i)}(x_i^{(1)})^2)\cdot\sum_{i=i}^N(\sqrt{t(x_i)}(x_i^{(2)})^2)-(\sum_{i=1}^N(\sqrt{t(x_i)x_i^{(1)}})(\sqrt{t(x_i)}x_i^{(2)}))^2\ge0(柯西不等式)$
从而得出结论，该矩阵的负定的，所以，一阶导为0的点是极大值点。而 $w$ 的每个分量单独来看，其单调性一致，所以该极大值点也就是最大值点。这个结论当然可以推广至任意有限维。

已知 $Lp(Z)=f(w)=\sum\limits_{i=1}^{N}y_iwx_i-\ln(1+e^{wx_i})$ 是一个关于自变量 $w$ 的函数，先证明这个函数是关于 $w$ 的多元上凸函数（凹函数），从定义出发
设对任意 $w_1,w_2\in\R^n,t\in(0,1)$ ,我们有
$f(tw_1+(1-t)w_2)$
$=\sum\limits_{i=1}^Ny_i(tw_1+(1-t)w_2)x_i-\ln(1+e^{(tw_1+(1-tw_2))x_i})$
$=t\sum\limits_{i=1}^Ny_iw_1x_i+(1-t)\sum\limits_{i=1}^Ny_iw_2x_i-\sum\limits_{i=1}^N\ln(1+e^{tw_ix_i+(1-t)w_2x_i})$
考虑函数 $g(x)=\ln(1+e^x)$ , $g''(x)=\frac{e^x}{(1+e^x)^2}>0$ 为凸函数，由凸函数定义有
$g(tw_1+(1-t)w_2)<tg(w_1)+(1-t)g(w_2)$
从而有
$ln(1+e^{tw_ix_i+(1-t)w_2x_i})<t\ln(1+e^{w_1x_i})+(1-t)\ln(1+e^{w_2x_i})$
从而
$t\sum\limits_{i=1}^Ny_iw_1x_i+(1-t)\sum\limits_{i=1}^Ny_iw_2x_i-\sum\limits_{i=1}^N\ln(1+e^{tw_1x_i+(1-t)w_2x_i})$
$\ge t\sum\limits_{i=1}^Ny_iw_1x_i+(1-t)\sum\limits_{i=1}^Ny_iw_2x_i-\sum\limits_{i=1}^Nt\ln(1+e^{w_1x_i})+(1-t)\ln(1+e^{w_2x_i})$
$tf(w_1)+(1-t)f(w_2)$
从而 $f (w)$ 是上凸函数，其黑塞矩阵为负定，所以一阶导零点处取得极大值。

凸函数极值点求解可以使用梯度下降法
由
$\frac{\partial Lp}{\partial w_j}=\sum\limits_{i=1}^{N}(y_i-\pi(x_i))x_i^{(j)}$
根据梯度下降法得到迭代公式为
$w^{(j)}=w^{(j)}+\alpha\sum\limits_{j=1}^N(y_i-\pi(x_i))x_i^{(j)}$ 因为 $L p$ 是上凸，所以 $\alpha$ 前面的符号是正号，下凸函数才是我们通常意义的凸函数。