logisitic 回归 +极大似然法 + 梯度下降法 (迭代优化)

最新推荐文章于 2024-05-28 17:00:30 发布

丁磊_Ml

最新推荐文章于 2024-05-28 17:00:30 发布

阅读量3.4k

点赞数

分类专栏：机器学习--林轩田机器学习--台大林轩田文章标签： logistic回归极大似然法梯度下降法

本文链接：https://blog.csdn.net/MosBest/article/details/52163246

版权

机器学习--林轩田同时被 2 个专栏收录

20 篇文章 3 订阅

订阅专栏

机器学习--台大林轩田

20 篇文章 7 订阅

订阅专栏

logistic 回归
- logistic 回归的Ein E_in
极大似然法
梯度下降法
所以logistic回归算法实现为

logistic回归是分类问题。前面我们讲的分类问题的输出都是 “yes”或者“no”。但是在现实生活中，我们并不是总是希望结果那么肯定，而是概率（发生的可能性）。比如，我们希望知道这个房子在第三个星期被卖出去的概率。那么以前的分类算法就无法使用了，这时logistic 回归就派上了用场。
也就是说，logistic 回归输出的是一个概率值，而不是绝对的0/1。即目标函数变为
这里写图片描述
我们用logistic 回归做分类，结果输出的是+1的概率。但是我们的样本的y确是+1或者-1。打个比方，我们预测房子3个月后被卖出去的概率。
但是对于我们搜集房子的样本，只知道样本3个月后是否成功被卖，并不知道该样本被卖的概率。
也就是，我们的样本的数据，不是这样
这里写图片描述
而是这样

logistic 回归

对于样本x的这里写图片描述
这d个特征（还有一个偏移 $x_0$ 。核心还是对这些特征进行加权求和

这个s的取值范围是（负无穷到正无穷）。只是logisitc 回归用了一个函数将他压缩到 [0,1]之间。由于这个压缩函数是单调递增的，所以结果并不影响。
这个函数就是
这里写图片描述
他是光滑且单调的。
那么logistic 函数为

这里写图片描述

logistic 回归的 $E_{in}$

我们总共讲了3种模型。线性分类，线性回归，logistic 回归。其实他们三者的核心都是这里写图片描述
也就是都是对特征的加权再求和。
但是他们的h(x)和 $E_{in}$ 是不同的。
对于h(x)的形式，三着分别为

对于 $E_{in}$ 形式
linear classfication 的 $E_{in}$ 是 $\sum I\left [ y\neq f(x) \right ]$
linear regression 的 $E_{in}$ 是 $\sum \left ( y-f(x) \right )^{2}$
而logistic回归又是什么呢？？现在我们来求一求

极大似然法

我们可得到
这里写图片描述
我们现在有一堆样本

那么他有f产生的概率为

我们有一个h ，h产生这堆样本的概率为
这里写图片描述

极大自然法，如果h产生一模一样的资料的概率同 f产生这堆资料的概率越相近，那么就可以说上面h与f更加接近。
由于我们的样本（资料）本就是f产生的，所以f产生这堆资料的概率很大，接近1。因此，我们希望h可以产生一模一样的资料的概率接近1。
这里写图片描述

所以我们现在的目标是，这里写图片描述

对于logistic回归，通过画图，我们可以得到关于他的对称性
这里写图片描述
所以likelihood

现在，可以改写出

灰色的表示：由于我们相当于是再所有的h中找一个likelihood()最大的那个h，而对于所有的h，其 $P(X_1),P(X_2)...$ 都是一样的，所以不用去考虑，所以将其表为灰色。

即问题转化为
这里写图片描述
将其转化为求w的形式

由于是乘积的形式，将其转化为log形式

为了计算方便，将max转化为min，并乘以 $\frac{1}{N}$ (乘以 $\frac{1}{N}$ 并不影响结果，因为所有的h都乘了)，再做进一步处理，即变为

那么我们的最终目标为
这里写图片描述

根据上面的式子，由于 $E_{in}$ 是光滑且凸的，所以我们只要通过令其梯度为0，得到的参数 $w_1,w_2,...$ 就可以使 $E_{in}$ 最小。
这里写图片描述

梯度下降法

$E_{in}$ 的梯度为0，就是令 $E_{in}$ 对每个 $w_i$ 的偏导为0。
这里写图片描述
最后一步就是把所有的偏导汇总成一个式子。所以橘色的 $x_n$ 是一个矢量。
最终变为

如果 $\Theta (-y_nw^Tx_n)$ 为0，那么-y_nw^Tx_n为无穷大，不成立。所以只能上面权重求和为0。

我们回顾一下PLA算法
这里写图片描述

其实上面两步可以归为1步
这里写图片描述
所以PLA算法可以简化为

发现，上面两图有两个参数， $\eta$ 和v .其中 $\eta$ 表示步长，而v表示方向（修正是改变的方向）
PLA通过不断的迭代更新w的值，使得最终的值达到最优。这种算法迭代优化方法。
logistic求解最小的 $E_{in}(w)$ ,也是用的是类似的PLA提到的迭代优化算法。一步一步权值向量w，使得 $E_{in}(w)$ 最小变权值向量w,迭代优化方法的更新公式是
这里写图片描述
其中 $\eta$ 表示步长，而v表示方向（修正是改变的方向，我们令他为单位向量，仅仅表示方向，用 $\eta$ 表示步长）

那么我们现在就通过求解正确的步长 $\eta$ 和方向v，使得 $E_{in}(w)$ 最优。
我们知道：
这里写图片描述

，以上为非线性的。当 $\eta$ 很小时，我们运用泰勒展开式将其化为线性形式。
根据泰勒公式：
这里写图片描述
当 $\eta$ 很小时，可以将泰勒公式简化成前两个的和。且我令 $x=w_t + \eta v$ , $a=w_t$ 就可以得到

那么问题就变为
这里写图片描述
我们想得到 $w_{t+1}$ ,那么 $w_t$ 是已知的，又 $\eta$ 是我们给定的。那么上面灰色的表示对最小值无影响。所以只需将上面黑色部分求最小即可。由于是向量相乘，且v我们认定他是单位向量，长度为1，那么我们只能改变中v的方向，就可以达到最小化。当v的方向与梯度相反时，值最小。又v为单位向量，所以可得
这里写图片描述
这样我们就求出了v的值。

即最终得到梯度下降为
这里写图片描述

步长 $\eta$ 太小，导致算法太慢；太大，就很任意出错。
这里写图片描述
我们希望 $\eta$ 可以在算法运行时不断的改变。梯度越陡峭，说明离极值点越远，那么希望步长越大；梯度越平缓，说明离极值点越近，那么希望步长越小

那么其实希望 $\eta$ 与梯度成单调递增性即可。
为了方便，这里用正比，当然也可以用其他的。
这里写图片描述
最终结果为

所以logistic回归算法实现为

这里写图片描述

丁磊_Ml

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
logisitic 回归 +极大似然法 + 梯度下降法 (迭代优化)

logistic 回归logistic 回归的Ein E_in 极大似然法梯度下降法所以logistic回归算法实现为logistic回归是分类问题。前面我们讲的分类问题的输出都是 “yes”或者“no”。但是在现实生活中，我们并不是总是希望结果那么肯定，而是概率（发生的可能性）。比如，我们希望知道这个房子在第三个星期被卖出去的概率。那么以前的分类算法就无法使用了，这时logistic 回归
复制链接

扫一扫