机器学习之逻辑回归（自学笔记）

最新推荐文章于 2023-03-14 22:33:39 发布

zhi金——金小亮

最新推荐文章于 2023-03-14 22:33:39 发布

阅读量423

点赞数 1

文章标签：逻辑回归 Sigmoid函数梯度下降损失函数二分类

本文链接：https://blog.csdn.net/m0_68795816/article/details/126265599

版权

文章目录

一，二分类

二分类问题顾名思义，将某事件分成两类，

例如某幅图片是不是猫，

x=1记为此图片是猫，x=0记为此图片不是猫,假设两个事件的概率如下

P（x=1）=a，P（x=0）=b，很容易知道，二分类的事件的概率和为1，即：

P（x=1) + P (x=0) = 1。

二分类问题是处理分类问题的，将事件分成两类，并且两类的结果是互斥的。

二，Sigmoid函数

（一）Sigmoid函数及其图像

Sigmoid函数的表达式与图像，如下所示，可以看出Sigmoid函数的值域在（0，1）之间，当x-> $+\infin$ ,y->1;当x-> $-\infin$ ,y->0。
$f(x)=\frac{1}{1+e^{-x}}$

在这里插入图片描述

(二) SIgmoid导数及其图像

求解Sigmoid导数得到如下的结果
$\frac{\partial f}{\partial d}=f(x)(1-f(x))$
图像如下导数取到最大值为0.25，并且处处都有导数，并且不为0

在这里插入图片描述

三，逻辑回归

（一）模型

逻辑回归模型如下，其中x为一维
$\frac{1}{1+e^{-d}}\\ d = w_1x_1 + w_0$
d在平面内是一条直线，这条直线被称为分类线。当d=0时，y=0.5。

令阈值 $\theta$ =0.5，如果d>0.5,则将数据划分为一类，记为+1类

若d<0.5，则将数据划分为另一类，记为-1类。

d越大，说明数据点距离分类线越远，也说明分类的可靠性越大。

（二）阈值

$\theta$ 的选取问题。一般情况下阈值选择时0.5，当y>0.5的时候，将其分为一类，当y<0.5，的时候，将其分为另一类。

但是根据实际情况，阈值的选取也是不同的。

例如判断患者是否患病，那么就需要将阈值调低一些，比如0.2，如果得到的结果大于0.2，就要对患者进行进一步的治疗。这种情况宁可错判，也不要漏判。

(三) 选取Sigmoid函数的原因

1，由Sigmoid导函数的图像可知，其导函数处处可导，且都不为0这使得梯度下降成为可能性；

2，Sigmoid函数的图像可知，其值域在（0，1），输出得到的结果，根据阈值进行分类。

四，损失函数

KL距离作为逻辑回归的损失函数，KL距离是用来度量不同概率分布之间差异
$\sum P(y) log \frac{P(y)}{Q(y)} \\ \sum P(y) = 1 \\ \sum Q(y) = 1$
由于我们现在研究的是二分类问题，+1类的概率是 $\hat{y}$ ，那么-1类的概率就是 $1-\hat{y}$

由于只有二分类，所以可以将KL距离改写成
$KL（y,\hat{y}）= ylog \frac{y}{\hat{y}} + (1-y)log \frac{1-y}{1-\hat{y}}$
由于对数函数的性质可知
$log\frac{b}{a} = logb-loga$
所以可以将KL距离进行化简
$KL（y,\hat{y}）= ylog {y}-ylog{\hat{y}} + (1-y)log ({1-y})-(1-y)log({1-\hat{y}})$
由于我们要找到和w有关的项， $y l o g y$ 与w无关，所以将一些去掉，对上式进行化简
$KL（y,\hat{y}）= -ylog{\hat{y}} -(1-y)log({1-\hat{y}})$
上式就是逻辑回归二分类得到的LOSS函数

如果考虑到所有样本N，就可以得到逻辑函数的损失函数L
$KL（y,\hat{y}）= \sum\limits_{i=1}^N[-y_ilog{\hat{y_i}} -(1-y_i)log({1-\hat{y_i}})]$

五，梯度下降法

由于我们知道Sigmoid导函数处处不为零，这就为使用梯度下降求取w提供了可能性

求解先用一个样本举例
$\frac{1}{1+e^{-d}}\\ d = w_1x_1 + w_0 \\ \frac{\partial L}{\partial w} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial d} \cdot \frac{\partial d}{\partial w} \\$
使用链式法则得到 $w$ 和 $w_0$
$\frac{\partial L}{\partial w} = (\hat y - y)x \\ \frac{\partial L}{\partial w_0} = (\hat y - y)$
如果考虑到所有的样本N,得到 $w$ 和 $w_0$
$\frac{\partial L}{\partial w} = \frac{1}{N}\sum\limits_{i=1}^N(\hat y - y)x \\ \frac{\partial L}{\partial w_0} = \frac{1}{N}\sum\limits_{i=1}^N(\hat y - y)$

六，梯度下降法求解步骤

1，随机初始化， $w (t)$ 和 $w_0(t)$ ，t为迭代次数

2，在第五章使用梯度下降法求出的结果
$\frac{\partial L}{\partial w(t)} = \frac{1}{N}\sum\limits_{i=1}^N(\hat y - y)x \\ \frac{\partial L}{\partial w_0(t)} = \frac{1}{N}\sum\limits_{i=1}^N(\hat y - y)$
3,更新得到的参数
$\alpha\frac{\partial L}{\partial w(t)} \\ w_0(t+1) = w_0(t) - \alpha\frac{\partial L}{\partial w_0(t)}$
4,重复上述1~3步，如果我们指定了或者L足够小就会提前停止更新。