第七篇：梯度下降法(Gradient Descent）

汤姆鱼

于 2019-07-12 13:00:10 发布

阅读量561

点赞数 1

分类专栏：吴恩达--深度学习学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41923658/article/details/95607439

版权

吴恩达--深度学习学习笔记专栏收录该内容

18 篇文章 11 订阅

订阅专栏

1、逻辑回归函数和代价函数

Logistics regression：

Cost Function：

在测试集上，我们想通过找到参数w和b，使得J(w,b)的值最小；那么通常采用梯度下降法(Gradient Descent)来求解。

2、梯度下降法(Gradient Descent）

梯度下降法的形象化说明

在这个图中，空间参数w和b表示横轴,而代价函数J(w,b)是水平轴w和b上的曲面，因此曲面的高度就是J(w,b)在某一点的函数值。当我们找到最小的代价函数J(w,b)函数值，就可以求出对应的参数w和b。
由图我们可以知道，代价函数J(w,b) 是一个凸函数(Convex function),可以找到全局最优解；

3、梯度下降法的步骤

初始化w和b；

对于初始化参数w和b，可以用如图的小红点，也可以采用随机初始化的方法，对于逻辑回归而言，几乎所有的初始化函数都有效，因为函数是凸函数，无论在哪里初始化，应该达到同一点或者大致相同。

朝最陡的下坡方向走一步，不断迭代；

直到走到全局最优解或者接近全局最优解的地方；

4、梯度下降法的细节说明

为了便于描述，简化模型，假定只有一个参数w;

那么对于迭代就是不重复如下的公式:

公式注解:

:= ---- 表示更新参数；
α ---- 表示学习率(learning rate），用来控制步长(step)；
??(?)?? ---- 表示函数J(w)对w的求导(derivative），代码中用dw来表示；

导数的理解

对导数更加行形象化的理解就是斜率(slope），如图该点的导数就是这个点相切于J(w)的小三角形的高除以宽。

梯度下降的步骤

(1)、假设我们以如图点为初始化点，该点的斜率符号为正的，即??(?)/??>0,所以会不断地向左走，直至逼近最小值点；

(2)、假设我们以如图点为初始化点，该点的斜率符号为正的，即??(?)??<0,所以会不断地向右走，直至逼近最小值点；

逻辑回归的代价函数J(w,b)是含两个参数的；

∂ 表示偏导符号，可以读作round；
??(?,?)/?(?)就是函数J(w,b)对w求偏导，在代码中我们会使用dw 表示这个结果；
??(?,?)/??就是函数J(w,b)对b求偏导，在代码中我们会使用db表示这个结果；
小写字母d用在求导函数(derivative),即函数只有一个参数；
偏导符号∂用在求偏导(partial derivate),即函数含有两个以上参数；

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。