笔记：ML-LHY-5 Logistic Regression

最新推荐文章于 2021-02-25 22:34:25 发布

snoopy_21

最新推荐文章于 2021-02-25 22:34:25 发布

阅读量266

点赞数

分类专栏：机器学习笔记李宏毅ML课程笔记

本文链接：https://blog.csdn.net/qq_29598161/article/details/107477883

版权

笔记同时被 3 个专栏收录

68 篇文章 7 订阅

订阅专栏

机器学习

32 篇文章 0 订阅

订阅专栏

李宏毅ML课程笔记

31 篇文章 4 订阅

订阅专栏

这节课主要介绍逻辑回归(Logistic Regression)以及多类别的逻辑回归(Softmax Regression)
Logistic Regression和Linear Regression关系以及为什么Logistic Regression不能用Squared Error
Logistic Regression是一种Discriminative 方法和上节课假设高斯分布求概率的Generative 做比较
Multi-class Classification问题，即Softmax Regression
从Logistic Regression的限制到Logistic Regression的连接，再到Neural Network
pdf 视频

Step 1: Function Set

Logistic Regression

上节课最后waring部分：
$P\left(C_{1} \mid x\right)=\frac{P\left(x \mid C_{1}\right) P\left(C_{1}\right)}{P\left(x \mid C_{1}\right) P\left(C_{1}\right)+P\left(x \mid C_{2}\right) P\left(C_{2}\right)} \\\\ =\frac{1}{1+\frac{P\left(x \mid C_{2}\right) P\left(C_{2}\right)}{P\left(x \mid C_{1}\right) P\left(C_{1}\right)}}=\frac{1}{1+\exp (-z)}=\sigma(z)$
中间推导过程省略…
在这里插入图片描述
因此：
$P\left(C_{1} \mid x\right)=\sigma(z)=\sigma(w \cdot x+b)=\frac{1}{1+\exp (-z)}$

在这里插入图片描述
$\sigma(z)$ 就是一个Sigmoid函数，输出也符合概率在0~1范围内。
最终定义这么一个函数：
$f_{w, b}(x)=P_{w, b}\left(C_{1} \mid x\right)$

Linear Regression

而Linear Regression的函数：
$f_{w, b}(x)=\sum_{i} w_{i} x_{i}+b$
输出可以是任何值

Step 2: Goodness of a Function (Loss Function)

Logistic Regression

如果训练数据如下：
$\begin{array}{ccccc} x^{1} & x^{2} & x^{3} & & x^{N} \\ C_{1} & C_{1} & C_{2} & \cdots \cdots & C_{1} \end{array}$
定义一个函数L
$b)=f_{w, b}\left(x^{1}\right) f_{w, b}\left(x^{2}\right)\left(1-f_{w, b}\left(x^{3}\right)\right) \cdots f_{w, b}\left(x^{N}\right)$
其中 $f_{w, b}(x)=P_{w, b}\left(C_{1} \mid x\right)$ ，需要求最大的L也就是当w、b使得L最大，就找到最好的函数 $z$ ，即：
$w^{*}, b^{*}=\arg \max _{w, b} L(w, b) = \arg \min _{w, b}-\ln L(w, b)$

$b)=f_{w, b}\left(x^{1}\right) f_{w, b}\left(x^{2}\right)\left(1-f_{w, b}\left(x^{3}\right)\right) \cdots f_{w, b}\left(x^{N}\right)$
而：
$-\ln L(w, b)=\ln f_{w, b}\left(x^{1}\right)+\ln f_{w, b}\left(x^{2}\right)+\ln \left(1-f_{w, b}\left(x^{3}\right)\right) \cdots\\ =\sum_{n}-\left[\hat{y}^{n} \ln f_{w, b}\left(x^{n}\right)+\left(1-\hat{y}^{n}\right) \ln \left(1-f_{w, b}\left(x^{n}\right)\right)\right]$
其中， $\hat{y}^{n}: 1$ for class 1,0 for class 2，
推导过程：
$\begin{array}{r} -\ln L(w, b) \\ =-\ln f_{w, b}\left(x^{1}\right) \\ -\ln f_{w, b}\left(x^{2}\right) \\ -\ln \left(1-f_{w, b}\left(x^{3}\right)\right) \end{array}$
转为（这一步这么做事什么公式推到的吗？个人认为是根据 $\hat{y}^{n}$ 的值刚和可以凑出下面形式，并且这种形式统一，便于表示）：
· $\begin{array}{l} -\left[\hat{y}^{1} \ln f\left(x^{1}\right)+\left(1-\hat{y}^{1}\right) \ln \left(1-f\left(x^{1}\right)\right)\right] \\ -\left[\hat{y}^{2} \ln f\left(x^{2}\right)+\left(1-\hat{y}^{2}\right) \ln \left(1-f\left(x^{2}\right)\right)\right] \\ -\left[\hat{y}^{3} \ln f\left(x^{3}\right)+\left(1-\hat{y}^{3}\right) \ln \left(1-f\left(x^{3}\right)\right)\right] \end{array}$
如果把 $\hat{y}^{n}$ 的值带入，刚好可以装换：
在这里插入图片描述

再回到上面：
$\sum_{n}-\left[\hat{y}^{n} \ln f_{w, b}\left(x^{n}\right)+\left(1-\hat{y}^{n}\right) \ln \left(1-f_{w, b}\left(x^{n}\right)\right)\right]$
就是交叉熵(Cross entropy)在伯努利分布中的表示
因此最终
$L(f)=\sum_{n} C\left(f\left(x^{n}\right), \hat{y}^{n}\right)$
其中 $\hat{y}^{n}: 1$ for class 1,0 for class 2
$C\left(f\left(x^{n}\right), \hat{y}^{n}\right)=-\left[\hat{y}^{n} \ln f\left(x^{n}\right)+\left(1-\hat{y}^{n}\right) \ln \left(1-f\left(x^{n}\right)\right)\right]$

Linear Regression

用平方误差做为损失函数求最好的拟合函数
$L(f)=\frac{1}{2} \sum_{n}\left(f\left(x^{n}\right)-\hat{y}^{n}\right)^{2}$
其中， $\hat{y}^{n}:$ a real number

Step 3: Find the best function

Logistic Regression

具体步骤就不写了，也是求梯度，最后：
$w_{i} \leftarrow w_{i}-\eta \sum_{n}\left(\hat{y}^{n}-f_{w, b}\left(x^{n}\right)\right) x_{i}^{n}$

Linear Regression

也是
$w_{i} \leftarrow w_{i}-\eta \sum_{n}\left(\hat{y}^{n}-f_{w, b}\left(x^{n}\right)\right) x_{i}^{n}$

Logistic Regression + Square Error

最后解释下为什么Logistic Regression不能用 Square Error;
在这里插入图片描述

可以看到这么做的后果就是在很容易出现梯度为0的情况，不管距离极值多远。下图更直观：

Generative v.s . Discriminative

Logistic Regression是Discriminative方法
用概率分布(例如高斯、伯努利)来描述后验概率(属于哪个类的概率)是Generative方法
在这里插入图片描述
一般来说Discriminative 方准确度大于Generative方法，因为Generative引入了假设，比如假设数据是高斯分布，而这个假设就削弱了对数据的敏感程度。
举个例子：

求[1, 1]为c1的概率。自觉认为[1,1]应该为c1.
如果用朴素贝叶斯（x1, x2独立）：
$P\left(C_{1} \mid x\right)=\frac{P\left(x \mid C_{1}\right) P\left(C_{1}\right)}{P\left(x \mid C_{1}\right) P\left(C_{1}\right)+P\left(x \mid C_{2}\right) P\left(C_{2}\right)}$
$\begin{array}{lll} P\left(C_{1}\right)=\mid \frac{1}{13} & P\left(x_{1}=1 \mid C_{1}\right)=1 & P\left(x_{2}=1 \mid C_{1}\right)=1 \\ P\left(C_{2}\right)=\frac{12}{13} & P\left(x_{1}=1 \mid C_{2}\right)=\frac{1}{3} & P\left(x_{2}=1 \mid C_{2}\right)=\frac{1}{3} \end{array}$

于是:
在这里插入图片描述
发现[1, 1]为c1的概率 < 0.5，是因为朴素贝叶斯没有考虑x1和x2的相关性，而我们自觉认为的时候考虑了相关性，这里只是拿朴素贝叶斯做个例子，如果使用高斯Generative的方法也是会有这种情况出现，而Discriminative 没有引入这种假设，完全是由数据算出来的，因此在数据量大时候，Discriminative 更能反应数据的分布、拟合函数而Generative方法适合数据量少时，引入的假设也许对拟合数据有帮助。
总结使用Generative的情况：

在训练数据比较少时，概率分布的假设是有必要的
概率分布的假设，能更好处理噪音
先验(假设概率分布)和类相关概率是可以的，来自不同来源的估计(比如语音识别，是一句话被说出的概率(先验概率\Generative)+识别模型(Discriminative )概率共同产生)

Multi-class Classification

多组w、b参数求属于C1、C2、C3的概率：
$\begin{array}{ll} \mathrm{C}_{1}: w^{1}, b_{1} & z_{1}=w^{1} \cdot x+b_{1} \\ \mathrm{C}_{2}: w^{2}, b_{2} & z_{2}=w^{2} \cdot x+b_{2} \\ \mathrm{C}_{3}: w^{3}, b_{3} & z_{3}=w^{3} \cdot x+b_{3} \end{array}$
下面解释softmax吧z->y:
在这里插入图片描述
很直观了，之前一直不理解为什么叫softmax，原来是想把大的值拉的更大，因为是做幂操作，所以就叫softmax，求完后
$1>y_{i}>0$
$\sum_{i} y_{i}=1$
$y_{i}=P\left(C_{i} \mid x\right)$
怎么求误差呢：

还是用交叉熵，目标值用one hot编码

单个Logistic Regression的限制

考虑以下数据：
在这里插入图片描述
Logistic Regression是线性边界，所以没法直接分开红和绿所代表的2类，但是可以先做一个变换：
$\begin{aligned} &x_{1}^{\prime}: \text { distance to }\left[\begin{array}{l} 0 \\ 0 \end{array}\right]\\ &x_{2}^{\prime}: \text { distance to }\left[\begin{array}{l} 1 \\ 1 \end{array}\right] \end{aligned}$
于是就有：
在这里插入图片描述
因此可以一刀切，但是不能每次都做这种转换，那样就不够智能
所以这个转换可以用Logistic Regression来做

$x_1$ 和 $x_2$ 通过一组参数(2个w和b）输出 $x_{1}^{\prime}$ ，而 $x_{1}^{\prime}$ 的值代表的情况如右上，这就是一种装换，同理还可以用不同的一组参数(2个w和b）输出 $x_{2}^{\prime}$ ，用转换好的 $x_{1}^{\prime}，x_{2}^{\prime}$ 再进行分类，就可以划分开了