第一周-数学基础的学习大纲
1. 矩阵对角化,SVD分解以及应用
2. 逆矩阵,伪逆矩阵
3. PCA原理与推导
4. 极大似然估计,误差的高斯分布与最小二乘估计的等价性
5. 最优化,无约束,有约束,拉格朗日乘子的意义,KKT条件
课程3 无约束最优化
无约束优化问题是机器学习中最普遍、最简单的优化问题
x* =min(x)f(x), x 属于R(n)
梯度下降法
定义:梯度下降法是一个一阶最优化算法。 要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。
示例如下,
图像大致如上图所示,我们的目标是求出函数f(x,y)的最小值是多少。
在计算机中一般是采用搜索的方法,假设给计算机一个随机的点P,从P点开始搜索,那么从哪里开始搜索呢。下图是一个上述曲面的等高线的图。
假设P点不管往哪个方向移动一步,希望在移动步数相同的情况下,哪个方向值最小。
所以可得P点应该往负梯度的方向进行移动,在这幅图中即向中心点移动。注:梯度的方向为增长最快的一个方向。
f(x1, x2, x3, … xn) 标量
所以其梯度为 (𝜕f / 𝜕x1, 𝜕f / 𝜕x2, 𝜕f / 𝜕x3, … , 𝜕f / 𝜕xn ) 矢量
那为啥梯度的方向是增长最快的方向呢,具体的解释如下。
如上图所示,我们将在二维平面讨论这个问题,由上图可得,
单位长度变化为(f(x0 + Lcos θ, y0 +Lsin θ) -f( x0, y0) )/ L
进行推导如下,
(f(x0 + Lcos θ, y0 +Lsin θ) -f( x0, y0) )/ L = sin θ * ((f(x0 + Lcos θ, y0 +Lsin θ) -f( x0, y0) )/ L sin θ) + cos θ * ((f(x0 + Lcos θ, y0 +Lsin θ) -f( x0, y0) )/ L cos θ)
当 L -> 0 时可得,
(f(x0 + Lcos θ, y0 +Lsin θ) -f( x0, y0) )/ L = sin θ f x (x0,y0) + cos θ f y (x0,y0)
牛顿法
牛顿法的定义:利用迭代点处的一阶导数和二阶导数对目标函数进行二次函数近似,然后把二次模型的极小点作为新的迭代点,并不断重复这一过程,直至求得满足精度的近似极小值。
如上图所示, y - g(xn)=g ’ ( xn ) (x - xn)
令 y =0 => x= x0 - ( g( xn ) / g ’ ( xn ) )
用 f ’ ( x ) 替换 g( x )
xn+1 = xn - ( f ’ ( xn ) / f ’ ’ ( xn ) )
收敛速度比较,梯度下降是一次收敛,牛顿法是二次收敛(速度快,但也有缺陷,要在比较接近最优点的时候才能收敛,否则可能发散)
本次课程的内容就分享到这里。后续将继续更新课程. . . .