声明
本文主体部分参考 胡永祥 基于互信息的多模态医学图像非刚性配准研究[D] 中南大学 2012
对其中部分不清晰及符号使用问题进行了调整。
旨在对图像配准过程中使用的互信息及其梯度计算进行大致了解。
疏漏之处敬请指出。
熵和互信息的基本概念
嫡和互信息都是信息论中的重要概念。熵在信息系统屮作为事物不确定性的表征,反映了系统所包含的信息总量。五信息用于表示信息之间的关系,是两个随机变量统计相关性的测度。
香农熵
消息中所含的信息量是与消息所描述的事件的概率或不确定性有关。消息所表达的事件的概率越小,其包含的信息量就越大,反之,其信息量就越小。如果某事件发生的概率为1,则其包含的信息量为0。如果某事件发生概率为0,则消息含有无限的信息量。设某事件 En 的发生概率为 Pn ,则其包含的信息量为:
其中,a为对数的底。通常取a的值为2,这时H的单位为比特(bit)。当要描述事件集合的平均信息量时,就需引入用香农熵。设事件集合 E=(E1,E2,...,EN) 的发生
概率分别为 (p1,p2,...,pn) ,则E所能提供的平均信息量即为香农熵,定义为:
香农熵的一些数学性质:
- 非负性, H(E)≤0 ,当且仅当描述单个概率为1的事件时其值为0;
- 当所有事件的发生概率相等时,即当 pi=1/N,i=1,2,...,N 时熵达到最大值 logaN ;
- 熵是多个事件自信息量的加权和,因此概率分量的位置互换,并不影响熵的值;
- 熵是概率分布 (p1,p2,...,pn) 的凸函数;
联合熵与条件熵
联合熵是检测两个随机变量之间相关性的一种统计量。设 p(x,y) 为随机变量X、Y的联合概率密度,则联合熵定义为:
两个随机变量越相关,它们的联合熵的值就越小;反之,联合熵的值就越大。联合熵大于等于任一个变量的独立熵,即 H(X,Y)≥max(H(X),H(Y)) ,联合熵小于独立熵的和,即 H(X,Y)<H(X)+H(Y)
条件熵用来衡量在已知随机变量X的前提下,随机变量Y的信息量。其定义为:
当根据X就能完全确定Y时,条件熵为0,当X,Y相互独立时 H(Y|X)=H(Y)
互信息
对于两个变量X,Y来说,互信息可以定义为:
根据条件熵的定义,可以得出:
将熵的定义带入公式,对数以2为底,可得:
式中 p(x,y) 为随机变量X、Y的联合概率密度函数, p(x),p(y) 分别为变量X、Y的边缘概率密度函数。
互信息有如下几个性质:
- 对称性: MI(X,Y)=MI(Y,X);
- 非负性: MI(X,Y)>0;
- 极值性: MI(X,Y)≤H(X);
- 凸函数性;
图像互信息
根据互信息的定义,可以得出在图像上的互信息的定义:
给定两幅图像F和M,它们的像素灰度分别为 fij,mij,i=1,...,m,j=1,...,n ,其中m、n表示图像的行和列的大小。计算互信息时,将两个图像的对应坐标位置处的像素构成一个二维向量 (fij,mij),i=1,...,m,j=1,...,n 。利用这个二维向量组估计出两幅图像的联合概率密度 pF,M(f,m) 和边缘概率 pF(f)=∑mpF,M(f,m) , pM(m)=∑fpF,M(f,m) ,最后计算互信息。
估计两个图像的互信息的关键在于两个图像的联合概率密度和边缘概率密度。概率密度估计的方法可以分为参数估计法和非参数估计法两类。参数估计法是指概率密度函数的形式已知,而函数的参数未知,通过训练数据来估计参数的方法,如最大似然估计,贝叶斯(Bayes)估计。非参数估计法对密度函数的形式不作任何假设,而是直接利用数据对概率密度进行估计,如核密度估计法(Parzen法),k-近邻法。由于不同图像的灰度数据差别很大,无法预知其概率密度形式,因此常用非参数估计法。最简单的估计法是直方图估计法,利用该方法可得到离散的概率密度。由于在刚性配准中通常使用Powell最优化算法,该最优化方法不需求目标函数的梯度,因此该方法在刚性配准中得到广泛应用。在非刚性图像配准中,最常用的概率密度估计法为核密度估计法。
图像概率密度估计
直方图法和核密度估计法是最常用的两种概率密度估计法。直方图估计法原理简单、计算速度快,但估计误差较大且只能得到离散的概率密度。核密度估计法比较准确,能得到连续的概率密度,但计算量大。
直方图概率密度估计法是最简便的密度估计法,
直方图估计法
直方图概率密度估计法是最简便的密度估计法,它用灰度出现的频率来近似表示灰度的概率。
核密度估计法
- 定义1 设 x1,x2,...,xn 为取值于R的独立同分布随机变量,其所服从的分布密度函数为 f(x),x∈R 。定义函数:
f^h(x)=1nh∑i=1nK(xi−xh)
为概率密度函数 f(x) 的核密度估计, K(⋅) 称为核函数。为方便,记 K