关于最优化问题的个人理解以及黑塞矩阵的示例

首先,关于最优化问题。一直理解不到位,今天终于醍醐灌顶。最优化问题,其实降维之后,就是一元方程的求极值问题。例如,一个一元二次函数, ,求其极小值。显然,高等数学的方法为先求其一阶导数,一阶导为0的点,即是驻点。再求驻点处的二阶导数,假如二阶导数大于零,则该点极小值,假如二阶导小于零,则为极大值。若=0,则不是极值。将该一元方程推广到多元二次方程。其实就是到了数字信号处理或数字图像处理上了,或者是多输入的控制系统。例如现在的Ax=b问题。通过A矩阵对b进行表示,也就是将b投影到A的张成空间中。假如b本来就在A的张成空间中,那么我们希望x的元素尽可能为0,这样便于压缩或者便于提取特征。那么假如b不在A的张成空间中,那么我们希望找到b在A上的投影,这样Ax逼近b的效果最好,也就是希望 尽可能的小,该式是Ax和b之间的欧氏距离,也可以理解为Ax和b的误差的能量,这个是我们希望的最重要的一点。另外一点是,x的元素尽可能稀疏,零越多越好。这样有助于我们除去b中的冗余信息,或者说找到能代表b的最少列数的那些列。因此,最优化问题可以描述成,一方面让表示误差足够小,即 足够小,另一方面让x比较稀疏,即 尽量小。所以目标函数就可以写成:

然后求f(x)的全局最小值即可。但是, 是严重不连续的,不便于计算,因此,需要将 松弛化(relaxation),那么怎么松弛化? 可以松弛化为 ,k>0。而鉴于l2-norm便捷的计算性能,IRLS算法通过 这样的变换,将 ,k>0转化为l2-norm,详见我的另一篇博文《理论分析IRLS迭代加权最小二乘法(根据Gorodnitsky and Rao)》。这样就易于实现。而BCR算法同样引入了 这样的算子,引入 ,使最优化的条件变得更一般化,条件不再仅限制为 ,可以自己去造各种限制条件。特殊的,当 时,IRLS和BCR的形式就很相似,具体说明见《sparse and redundent representation》书中P119。

另外,黑塞矩阵是用于求多元函数的极值问题,分为两步,第一步,先求f(x)的驻点,也就是求梯度,梯度=0的点设为M。这里的梯度,是一元二次函数一阶导数向多元函数的推广,表示为: ,这里的x是向量。X的维数就是元数。第二步,求f(x)的黑塞矩阵H(x)。那么 其实就是下面的形式:

但是其具体含义还需要继续理解。

当在点M处,H是正定的,则fx在M点处取局部极小值;

当在点M处,H是负定的,则fx在M点处取局部极大值;

当在点M处,H是不定的,则fx在M点处不是极值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值