【the EM algorithm】Jensen不等式

最新推荐文章于 2024-07-19 10:51:16 发布

玉衡瑶光

最新推荐文章于 2024-07-19 10:51:16 发布

阅读量4k

点赞数

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/moqihao/article/details/41978153

版权

Machine Learning 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1. 凸函数

设f 是定义于为实数的函数，如果对于所有实数x， $f''(x)\geqslant 0$ ，那么f 是凸函数。

当x是向量时，如果Hessian Matrix（海森矩阵）H是半正定的( $H\geqslant 0$ ) ，那么f是凸函数。

如果 $f(x)''>0$ 或者 $H>0$ ，那么称f 是严格凸函数。

1.1 半正定矩阵

正定矩阵：

正定矩阵的判定：

判定定理1：对称阵A为正定的充分必要条件是：A的特征值全为正。
判定定理2：对称阵A为正定的充分必要条件是：A的各阶顺序主子式都为正。
判定定理3：任意阵A为正定的充分必要条件是：A合同于单位阵。

正定矩阵的性质：

1.正定矩阵一定是非奇异的。非奇异矩阵的定义：若n阶矩阵A的行列式不为零，即 |A|≠0。
2.正定矩阵的任一主子矩阵也是正定矩阵。
3.若A为n阶对称正定矩阵，则存在唯一的主对角线元素都是正数的下三角阵L，使得A=L*L′，此分解式称为正定矩阵的乔列斯基(Cholesky)分解。
4.若A为n阶正定矩阵，则A为n阶可逆矩阵。

半正定矩阵：

对于半正定矩阵来说，相应的条件应改为所有的主子式非负。顺序主子式非负并不能推出矩阵是半正定的。

定义：设A是实对称矩阵。如果对任意的实非零列矩阵 $X$ 有 $X^{T}\cdot A\cdot X\geqslant 0$ ，就称A为半正定矩阵。

1.2 Hessian矩阵

是一个多元函数的二阶偏导数构成的方正，描述了函数的局部曲率。常用于牛顿法解决优化问题。

定义

对于一个实值多元函数

，如果函数

的二阶偏导数都存在，则定义

的海森矩阵为

其中

表示对第

个变量的微分算子，

。那么，

的海森矩阵即

多元函数极值的判定

如果实值多元函数

二阶连续可导，并且在临界点

（其中

，并且

已知）处梯度（一阶导数）等于0，即

，

为驻点。仅通过一阶导数无法判断在临界点

处是极大值还是极小值。

记

在

点处的海森矩阵为

。由于

在

点处连续，所以

是一个

的对称矩阵。对于

，有如下结论：

如果H(M)是正定矩阵，则临界点M处是一个局部的极小值。
如果H(M)是负定矩阵，则临界点M处是一个局部的极大值。
如果H(M)是不定矩阵，则临界点M处不是极值。

2. Jensen不等式

Jensen不等式表述如下：

     如果f是凸函数，X是随机变量，那么

       ${\color{Red} E[f(X)]\geq f(EX)}$

      特别地，如果f是严格凸函数，那么当且仅当，也就是说X是常量。这里我们将简写为。

      如果用图表示会很清晰：



      图中，实线f是凸函数，X是随机变量，有0.5的概率是a，有0.5的概率是b。（就像掷硬币一样）。X的期望值就是a和b的中值了，图中可以看到成立。

      当f是（严格）凹函数当且仅当-f是（严格）凸函数。

      Jensen不等式应用于凹函数时，不等号方向反向，也就是。