吴恩达深度学习公开课笔记(1)

最新推荐文章于 2019-05-23 11:24:45 发布

QzMate

最新推荐文章于 2019-05-23 11:24:45 发布

阅读量153

点赞数

分类专栏：深度学习文章标签：吴恩达

本文链接：https://blog.csdn.net/weixin_43163254/article/details/89839372

版权

深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

训练集
预测函数
误差函数
梯度下降

训练集

X	Y
1	1
2	2
3	3

在这里插入图片描述
$x^{i}$ 指训练集的第i个x , $y^{i}$ 指训练集的第i个y
如 $x^{2}=2$ ， $y^{3}=3$

m=训练集的数量=3

预测函数

$H(x^{i})=\theta_{0}+\theta_{1}x^{i}$

不同的 $\theta_{0}$ 和 $\theta_{1}$ 将会有不同的函数曲线

当 $\theta_{0}=2$ ， $\theta_{1}=1$
在这里插入图片描述
当 $\theta_{0}=1$ ， $\theta_{1}=2$

在这里插入图片描述

神经网络的目标就是通过改变 $\theta_{0}$ 和 $\theta_{1}$ 是函数更好的拟合训练集

误差函数

$J(\theta_{0},\theta_{1})=\frac{1}{2m}\sum_{i=1}^{M}(H(x^{(i)})-y^{(i)})^2$

误差函数是预测函数的结果与实际结果的误差
误差越小就表明我们的预测函数越好，也就是 $\theta_{0}$ 和 $\theta_{1}$ 越好

为了方便运算，我们使 $\theta_{0}=0$
所以 $H(x^{i})=\theta_{1}x^{i}$

误差函数的图像如下:
在这里插入图片描述

从肉眼可以看出当 $\theta_{1}=1$ 时误差最小

图像如下
在这里插入图片描述

但当数据特别大时，我们就无法直接从肉眼看出，所以有了梯度下降

梯度下降

定义如下
$\theta_{1}=\theta_{1}-a\frac{d}{d\theta_{1}}J(\theta_{1})$

a是学习速度，学习速度过大会导致数据网络在局部最优摆动，过小会导致到达局部最优的时间过久

计算得到
$\theta_{1}=\theta_{1}-\frac{1}{m}\sum_{i=1}^{M}(H(x^{(i)})-y^{(i)})x^{(i)}$

随机一个 $\theta_{1}$ ,梯度下降图像如下
在这里插入图片描述
梯度下降的优点：

梯度下降法实现简单，当目标函数是凸函数时，梯度下降法的解是全局解

梯度下降的缺点:

一般情况下，其解不保证是全局最优解，梯度下降法的速度也未必是最快的。
靠近极小值时收敛速度减慢，求解需要很多次的迭代；
直线搜索时可能会产生一些问题；
可能会“之字形”地下降。

QzMate

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
吴恩达深度学习公开课笔记(1)

111
复制链接

扫一扫

专栏目录