李宏毅深度学习——逻辑回归

最新推荐文章于 2024-04-23 12:09:38 发布

Grateful_Dead424

最新推荐文章于 2024-04-23 12:09:38 发布

阅读量729

点赞数

分类专栏：深度学习（李宏毅）文章标签：人工智能机器学习逻辑回归算法

本文链接：https://blog.csdn.net/Grateful_Dead424/article/details/121875830

版权

深度学习（李宏毅）专栏收录该内容

10 篇文章 7 订阅

订阅专栏

这就是logistic regression的原理

logistic regression相比于linear regression而言，外面套了一个sigmoid函数

y_hat是110而不是101

y_hat是110而不是101

交叉熵(cross entropy):cross entropy代表的含义是这两个分布有多接近，两个分布越接近cross entropy算出来就会越小

step 2里面的两个L函数指的是损失函数，对于logistic regression而言，损失函数是交叉熵的求和， $\hat{y}^{n}$ 指的是真实值，f( $x^{n}$ )值的是预测值，要让loss function越小，两者的分布就要越接近

$(\sigma (z))' = (\sigma (z))(1-\sigma (z))$

Logistic regression和Linear regression利用梯度下降的方法更新参数的函数式子是一样的没有差别

这边还要重点强调一下，对于参数update逻辑回归有两种方法

（1）一种是通过最小化损失函数的方法，logistic regression的损失函数是交叉熵的求和，最小化损失函数，让损失函数分别对w和b求导最终结果就是：

（2）另一种是用最大似然估计推导(最大化似然函数)，似然函数是：

有没有惊奇的发现，这个式子不就是上面的损失函数么。于是最终，两种方法，殊途同归。接下来用梯度下降进行求解，剩下的步骤就和上述一致了。

两种方法做到最后是一模一样的

如果Logistic regression的loss function是square error的话会是怎样一种情况呢？

结果显示，无论离目标很近，还是离目标很远，微分算出来都是0。

cross entropy和square error相互对比。结果显示，使用cross entropy的时候离目标越远，参数update越快、update参数的步伐越大，距离目标近的时候，参数update越慢、update参数的步伐越小。然而如果使用square error，参数会卡住，参数update得很慢。

左边和右边使用了不同的方法计算w和b的值，左边的loss function是交叉熵，利用最小化损失函数求解w和b，右边利用最大化似然函数，求出mu和sigma，然后简单的带入公式即可求出w和b。

但是找出来的结果是不一样的，左边对分布没有假设，右边假设了分布情况

discriminative model的准确率会比generative model要更好

为什么会这样呢？

从直观上而言，Testing Data理所应当是属于class 1的

最后的结果跑出来，属于class 1的概率小于0.5，因此通过朴素贝叶斯的方法算出来Testing Data应该是数据class 2的

generative对于分布进行了脑补

generative model会适当脑补分布，因此不需要太多的数据。因此在数据量比较小的时候generative model可能会胜过discriminative model

generative model会适当脑补、会适当做一些假设，这反而会把data里面有问题的部分忽视掉，因此提高了对于噪音的鲁棒性

接下来我们要考虑多分类问题

softmax指最大值做强化(因为取了指数)，0.88指input的x属于class 1的几率是0.88,属于class 2的几率是0.12，属于class 3的几率是0

不能假设为0，1，2。因为0离1近，离2远

多分类问题，最小化交叉熵和最大化似然函数这两个也是殊途同归的，一模一样的

这种情况下，做logistic regression用来分类是办不到的，因为logistic regression的boundary就是一条直线

不论怎么画，都不能使得红色的放到一边，蓝色的放到另一边

那我们该怎么办呢？

可以做一些特征的变换，比如说通过上面这种方式，将x1转化成该点和（0，0）之间的距离，x2转换成该点和（1，1）之间的距离。但是这种方法是人想出来的，而不是机器自己产生的，我们要让机器自己产生

通过把很多个逻辑回归接起来，我们就可以解决这样一个问题

通过调整参数，上面这些都是可以实现的

类神经网络

Grateful_Dead424

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
李宏毅深度学习——逻辑回归

这就是logistic regression的原理logistic regression相比于linear regression而言，外面套了一个sigmoid函数y_hat是110而不是101y_hat是110而不是101交叉熵(cross entropy):cross entropy代表的含义是这两个分布有多接近，两个分布越接近cross entropy算出来就会越小step 2里面的两个L函数指的是损失函数，对于logistic regre...
复制链接

扫一扫