7.机器学习——Logistic Regression

最新推荐文章于 2022-08-20 18:25:00 发布

pxlsdz

最新推荐文章于 2022-08-20 18:25:00 发布

阅读量244

点赞数 1

分类专栏：机器学习笔记文章标签：机器学习深度学习人工智能 python 逻辑回归

本文链接：https://blog.csdn.net/sdz20172133/article/details/109968654

版权

机器学习笔记专栏收录该内容

11 篇文章 4 订阅

订阅专栏

上一章的分类可以推导了 $P(C_1|x)=\sigma(z)=\frac{1}{1+e^{-z}}$ ，并且在Gaussian的distribution下考虑class 1和class 2共用 $\Sigma$ ，可以得到一个线性的z(其实很多其他的Probability model经过化简以后也都可以得到同样的结果)
$P_{w,b}(C_1|x)=\sigma(z)=\frac{1}{1+e^{-z}}$
$z=w\cdot x+b=\sum\limits_i w_ix_i+b \$ 这里的w和x都是vector，两者的乘积是inner product，从上式中我们可以看出，现在这个model(function set)是受w和b控制的，因此我们不必要再去像前面一样计算一大堆东西，而是用这个全新的由w和b决定的model——Logistic Regression(逻辑回归)

Step 1：function set

这里的function set就是Logistic Regression——逻辑回归
$w_i$ ：weight， $b$ ：bias， $\sigma(z)$ ：sigmoid function， $x_i$ ：input
在这里插入图片描述

Step2 定义损失函数

在这里插入图片描述
由于 $L (w, b)$ 是乘积项的形式，为了方便计算，我们将上式做个变换：

由于class 1和class 2的概率表达式不统一，上面的式子无法写成统一的形式，为了统一格式，这里将Logistic Regression里的所有Training data都打上0和1的标签，即output $\hat{y}=1$ 代表class 1，output $\hat{y}=0$ 代表class 2，于是上式进一步改写成：
在这里插入图片描述

现在已经有了统一的格式，我们就可以把要minimize的对象写成一个summation的形式： $-\ln L(w,b)=\sum\limits_n -[\hat{y}^n \ln f_{w,b}(x^n)+(1-\hat{y}^n) \ln(1-f_{w,b}(x^n))]$ 这里 $x^n$ 表示第n个样本点， $\hat{y}^n$ 表示第n个样本点的class标签(1表示class 1,0表示class 2)，最终这个summation的形式，里面其实是两个Bernouli distribution(两点分布)的cross entropy(交叉熵)
在这里插入图片描述

step 3：Find the best function

实际上就是去找到使loss function即交叉熵之和最小的那组参数 $w^*,b^*$ 就行了，这里用gradient descent的方法进行运算就ok
结果竟然异常的简洁，gradient descent每次update只需要做： $w_i=w_i-\eta \sum\limits_{n}-(\hat{y}^n-f_{w,b}(x^n))x_i^n$ 那这个式子到底代表着什么意思呢？现在你的update取决于三件事：
learning rate，是你自己设定的
$x_i$ ，来自于data
$\hat{y}^n-f_{w,b}(x^n)$ ，代表function的output跟理想target的差距有多大，如果离目标越远，update的步伐就要越大

Logistic Regression V.s. Linear Regression

在这里插入图片描述

损失函数：为什么不学线性回归用平方误差？

在这里插入图片描述
如果是交叉熵，距离target越远，微分值就越大，就可以做到距离target越远，更新参数越快。
而平方误差在距离target很远的时候，微分值非常小，会造成移动的速度非常慢，这就是很差的效果了。

判别模型v.s. 生成模型

逻辑回归的方法称为Discriminative（判别）方法；上一篇中用高斯来描述后验概率，称为 Generative（生成）方法。它们的函数集都是一样的。
在这里插入图片描述

如果是逻辑回归，就可以直接用梯度下降法找出w和b；
如果是概率生成模型，像上篇那样求出 $μ^1,μ^2$ ，协方差矩阵的逆，然后就能算出w和b。

用逻辑回归和概率生成模型找出来的w和b是不一样的。结果是逻辑回归的效果好一些。

Generative model和discriminative model的差别就在于，Generative的model它有做了某些假设，假设你的data来自于某个概率模型；而Discriminative的model是完全不作任何假设的

判别方法不一定比生成方法好

生成方法的优势：生成方法会自己脑补，受到数据量的影响比较小。对于噪声数据有更好的鲁棒性（robust）。

语音识别是 Generative 的方法，DNN只是其中的一块而已；因为还是需要算一个先验概率，就是某句话被说出来的概率，而估计某句话被说出来的概率不需要声音数据，只需要爬很多的句子，就能计算某句话出现的几率。

多类别分类

在这里插入图片描述

softmax的意思是对最大值做强化，因为在做第一步的时候，对z取exponential会使大的值和小的值之间的差距被拉得更开，也就是强化大的值

为什么Softmax的输出可以用来估计后验概率？

设我们用的是Gaussian distribution(共用covariance)，经过一般推导以后可以得到softmax的function，
从information theory也可以推导出softmax function，Maximum entropy本质内容和Logistic Regression是一样的，它是从另一个观点来切入为什么我们的classifier长这样子