《最优化方法》和《应用数理统计》是机器学习的基础,接下来一段时间我将整理整理最优化和数理统计的一些知识,整理的知识中不包含证明过程(具体的证明过程可以查阅相关书籍),在学习最优化过程中需要一点高数和线性代数基础。
多元函数
定理1:若f(x)在点 x0 c处可微,则f(x)在该点关于各个变量的一节偏导数存在,并且
l=[∂f(xo)∂x1,∂f(xo)∂x2,⋅⋅⋅,∂f(xo)∂xn]T
定理1就是表明对于多元函数,可微
⇒
可导。对于多元函数:可微
⇒
可导
⇒
连续
⇒
可积;对于一元函数:可微
⇔
可导
⇒
连续
⇒
可积。
定义1: (梯度)以 f(x)的n个偏导数为分量的向量称为 f(x)在 x处的梯度,记为
∇f(x)=[∂f(x)∂x1,∂f(x)∂x2,⋅⋅⋅,∂f(x)∂xn]
梯度也称为函数
f(x)关于变量
x的一阶导数。
若函数 f(x)在 x0 处可微,多元函数 f(x)在 x0 的一阶Taylor展开式
f(x0+p)=f(x0)+∇f(x0)Tp+o(||p||)]
定义2:(方向导数)设 f:Rn→R1 在点 x0 处可微, p 是任意给定的非零向量,
定理2:设 f:Rn→R1 在点 x0 处可微,则
∂f(x)∂p=∇f(x0)Te
其中
e
是
方向导数 ∂f(x0)∂p 又可以称为函数 f(x) 在点 x0 处沿 p 方向的变化率。梯度方向是函数值的最速上升方向;函数在与梯度正交的方向上变化率为0。
Hesse矩阵
定义1设
∇g(x0)=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢∂g1(x0)∂x1∂g1(x0)∂x2⋅⋅⋅∂g1(x0)∂xn∂g2(x0)∂