吴恩达深度学习（1）logistic

最新推荐文章于 2024-07-25 23:06:58 发布

正一番薯

最新推荐文章于 2024-07-25 23:06:58 发布

阅读量341

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_41698305/article/details/103096590

版权

先用自己的话定义一下Logistic是什么东东：

logistic回归是一种二分类器。在logistic回归中，有这样一道核心式子： $z=w^{T}x+b$ 。我把这里的叫做权重，把这里的叫做偏置（或阈值）。这条式子的作用就是：对于输入的特征，如果 sigmoid(z)>0.5 则将对应的归为一类，如果 sigmoid(z)<0.5 则将x归为另一类，其中 $sigmoid(z)=\frac{1}{1+e^{-z}}$ ,函数图像如下图：

既然logistic是一种二分类器，那么这里的权重w和偏置b都是由训练样本训练得到的。

训练集一般长这个样子： $\{\(x_{1},y_{1}),\(x_{2},y_{2}),\(x_{3},y_{3}),...\}$ ,其中是样本集每个样本的真值，就是这个样本它属于哪一类的意思。记 $\hat{y}=sigmoid(z)$ 的话，这个 $\hat{y}$ 的意义就是由logistic预测出来的，特征x的分类了。那么我们当然希望，logistic预测出来的值与真值相等啦，也就是 $\hat{y}=y$ ，但是很多时候我们只能让大部分的 $\hat{y}=y$ ，总会有一小部分的样本真值和预测值是不相等的。因此，我们引入一个代价函数去刻画样本整体的预测情况。这个代价函数的定义是： $J\(w,b)=-\frac{1}{m}\sum_{i=1}^{m}[(y^{(i)}log(\hat y^{\left ( i \right )} ) +(1-y^{\left (i \right )})log\left( 1-\hat y^{\left(i \right )} \right)]$ 。我们观察这个代价函数，假设真值为1、预测值>0.5时，代价函数的 $(1-y^{\left (i \right )})log\left( \hat y^{\left(i \right )} \right)$ 项是等于0的，而 $y^{(i)}log(\hat y^{\left ( i \right )})$ 项则是一个绝对值相当小的数（ $\hat y^{\left ( i \right )}>0.5$ ,由log函数图像知，该值相对于 $\hat y^{\left ( i \right )}<0.5$ 的情况要小很多）；而当真值为1、预测值<0.5时, $y^{(i)}log(\hat y^{\left ( i \right )})$ 就是一个比上个情况大数倍甚至数十倍的值了， $\hat y^{\left ( i \right )}$ 骈俪0.5越多，这个绝对值越大；另外两种情况也同样道理。所以、这个代价函数刻画的，就是样本整体的预测值与真值之间的差异程度，当代价函数值越小时，logistic的预测效果越好。

于是，训练权重w和偏置b的目标就是：使代价函数 $J\(w,b)=-\frac{1}{m}\sum_{i=1}^{m}[(y^{(i)}log(\hat y^{\left ( i \right )} ) +(1-y^{\left (i \right )})log\left( 1-\hat y^{\left(i \right )} \right)]$ 的值最小，这个问题就成了一个最优化问题（求代价函数的最小值）。

那么，这个最优化问题怎么求解呢？这里就是用梯度下降法了。这部分可以参考别人的博客：https://blog.csdn.net/c654528593/article/details/78571756，当然还是吴恩达推得明白一点，我也粗略地推一推吧：

推完之后，就可以用梯度下降的方法，训练模型了。这里注意的是，吴恩达的视频里用到了向量化的方法进行训练，这篇博客也讲得很清楚，这里就不再写了：https://blog.csdn.net/iSunwish/article/details/88205921

正一番薯

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
吴恩达深度学习（1）logistic

先用自己的话定义一下Logistic是什么东东：logistic回归是一种二分类器。在logistic回归中，有这样一道核心式子：。我把这里的叫做权重，把这里的叫做偏置（或阈值）。这条式子的作用就是：对于输入的特征，如果则将对应的归为一类，如果则将x归为另一类，其中,函数图像如下图：既然logistic是一种二分类器，那么这里的权重w和偏置b都是由训练样本训练得到的。训练集一般长这...
复制链接

扫一扫