【深度之眼花书训练营第五期】第一周-数学基础-课程4

最新推荐文章于 2024-05-10 13:19:30 发布

Yesterday_萝卜

最新推荐文章于 2024-05-10 13:19:30 发布

阅读量863

点赞数

分类专栏：学习笔记文章标签：深度学习机器学习线性代数

本文链接：https://blog.csdn.net/qq_39637158/article/details/105190723

版权

学习笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

第一周-数学基础的学习大纲

1. 矩阵对角化，SVD分解以及应用
2. 逆矩阵，伪逆矩阵
3. PCA原理与推导
4. 极大似然估计，误差的高斯分布与最小二乘估计的等价性
5. 最优化，无约束，有约束，拉格朗日乘子的意义，KKT条件

课程3 无约束最优化

无约束优化问题是机器学习中最普遍、最简单的优化问题
x* =min（x）f（x）， x 属于R(n)

梯度下降法

定义：梯度下降法是一个一阶最优化算法。要使用梯度下降法找到一个函数的局部极小值，必须向函数上当前点对应梯度（或者是近似梯度）的反方向的规定步长距离点进行迭代搜索。

示例如下，
在这里插入图片描述
图像大致如上图所示，我们的目标是求出函数f（x，y）的最小值是多少。
在计算机中一般是采用搜索的方法，假设给计算机一个随机的点P，从P点开始搜索，那么从哪里开始搜索呢。下图是一个上述曲面的等高线的图。
在这里插入图片描述
假设P点不管往哪个方向移动一步，希望在移动步数相同的情况下，哪个方向值最小。
所以可得P点应该往负梯度的方向进行移动，在这幅图中即向中心点移动。注：梯度的方向为增长最快的一个方向。

f（x1, x2, x3, … xn）标量
所以其梯度为（𝜕f / 𝜕x1, 𝜕f / 𝜕x2, 𝜕f / 𝜕x3, … , 𝜕f / 𝜕xn ）矢量
那为啥梯度的方向是增长最快的方向呢，具体的解释如下。
在这里插入图片描述
如上图所示，我们将在二维平面讨论这个问题，由上图可得，
单位长度变化为（f（x0 + Lcos θ, y0 +Lsin θ） -f( x0, y0) ）/ L
进行推导如下，
（f（x0 + Lcos θ, y0 +Lsin θ） -f( x0, y0) ）/ L = sin θ * （（f（x0 + Lcos θ, y0 +Lsin θ） -f( x0, y0) ）/ L sin θ） + cos θ * （（f（x0 + Lcos θ, y0 +Lsin θ） -f( x0, y0) ）/ L cos θ）
当 L -> 0 时可得，
（f（x0 + Lcos θ, y0 +Lsin θ） -f( x0, y0) ）/ L = sin θ f x (x0,y0) + cos θ f y (x0,y0)

牛顿法

牛顿法的定义：利用迭代点处的一阶导数和二阶导数对目标函数进行二次函数近似，然后把二次模型的极小点作为新的迭代点，并不断重复这一过程，直至求得满足精度的近似极小值。
在这里插入图片描述
如上图所示， y - g（xn）=g ’ ( xn ) (x - xn)
令 y =0 => x= x0 - ( g( xn ) / g ’ ( xn ) )
用 f ’ ( x ) 替换 g( x )
xn+1 = xn - ( f ’ ( xn ) / f ’ ’ ( xn ) )

收敛速度比较，梯度下降是一次收敛，牛顿法是二次收敛（速度快，但也有缺陷，要在比较接近最优点的时候才能收敛，否则可能发散）

本次课程的内容就分享到这里。后续将继续更新课程. . . .

Yesterday_萝卜

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【深度之眼花书训练营第五期】第一周-数学基础-课程4

第一周-数学基础的学习大纲1. 矩阵对角化，SVD分解以及应用2. 逆矩阵，伪逆矩阵3. PCA原理与推导4. 极大似然估计，误差的高斯分布与最小二乘估计的等价性5. 最优化，无约束，有约束，拉格朗日乘子的意义，KKT条件课程3 无约束最优化无约束优化问题是机器学习中最普遍、最简单的优化问题x* =min（x）f（x）， x 属于R(n)梯度下降法定义：梯度下降法是一个一阶最优...
复制链接

扫一扫