最优化方法预备知识

《最优化方法》和《应用数理统计》是机器学习的基础,接下来一段时间我将整理整理最优化和数理统计的一些知识,整理的知识中不包含证明过程(具体的证明过程可以查阅相关书籍),在学习最优化过程中需要一点高数和线性代数基础。

多元函数

定理1:f(x)在点 x0 c处可微,则f(x)在该点关于各个变量的一节偏导数存在,并且

l=[f(xo)x1,f(xo)x2,,f(xo)xn]T
定理1就是表明对于多元函数,可微 可导。对于多元函数:可微 可导 连续 可积;对于一元函数:可微 可导 连续 可积。
定义1: (梯度)f(x)的n个偏导数为分量的向量称为 f(x)x处的梯度,记为
f(x)=[f(x)x1,f(x)x2,,f(x)xn]
梯度也称为函数 f(x)关于变量 x的一阶导数。
若函数 f(x) x0 处可微,多元函数 f(x) x0 的一阶Taylor展开式
f(x0+p)=f(x0)+f(x0)Tp+o(||p||)]

定义2:(方向导数) f:RnR1 在点 x0 处可微, p 是任意给定的非零向量, e p 方向上的单位向量,则极限
limt0+f(x0+te)f(x0)t
称为函数f(x)在点 x0 处沿 p 方向的方向导数,记作 f(x0)p
定理2: f:RnR1 在点 x0 处可微,则
f(x)p=f(x0)Te
其中 e p 方向上的单位向量。
方向导数 f(x0)p 又可以称为函数 f(x) 在点 x0 处沿 p 方向的变化率。梯度方向是函数值的最速上升方向;函数在与梯度正交的方向上变化率为0。

Hesse矩阵

定义1 g:DRnRm,x0D 。如果 g(x) 的所有分量 g1(x),g2(x),,gm(x) 在点 x0 都可微,那么成向量值函数 g(x) 在点 x0 处可微。

g(x0)=g1(x0)x1g1(x0)x2g1(x0)xng2(x0)
  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值