推论为本人学完第九周后自己推导得出,推论公式在文中下半部分。本来在word上编辑好了公式复制到博客上乱码了,所以有些公式是粘贴的图片,不影响观看。欢迎大家指正,交流。
在一般的高斯分布模型中,我们计算高斯分布概率密度函数p(x),回顾高斯分布的基本知识。通常如果我们认为变量 x 符合高斯分布 x~N(μ,σ2)则其概率密度函数为:,其中,μ,σ2分别表示如下:
。
假使我们有两个相关的特征,而且这两个特征的值域范围比较宽,这种情况下,一般的高斯分布模型可能不能很好地识别异常数据。其原因在于,一般的高斯分布模型尝试的是去同时抓住两个特征的偏差,因此创造出一个比较大的判定边界。
下图中是两个相关特征,洋红色的线(根据 ε 的不同其范围可大可小)是一般的高斯分布模型获得的判定边界,很明显绿色的X 所代表的数据点很可能是异常值,但是其 p(x)值却仍然在正常范围内。多元高斯分布将创建像图中蓝色曲线所示的判定边界。
在一般的高斯分布模型中,我们计算 p(x)的方法是: 通过分别计算每个特征对应的几率然后将其累乘起来,在多元高斯分布模型中,我们将构建特征的协方差矩阵,用所有的特征一起来计算p(x)。
我们首先计算所有特征的平均值,然后再计算协方差矩阵:
其中: ,
其中:|Σ|表示的是协方差矩阵Σ 的行列式 ; Σ(-1)表示的是协方差矩阵的逆。
下面通过一般高斯分布概率密度函数来推导上述多元的高斯分布概率密度函数:
一般高斯分布概率密度函数为:
展开后:p(x) =
而协方差矩阵Σ是关于方差的n*n的对角矩阵,即:
同时协方差矩阵Σ的伴随矩阵为:..........(1)
这里:.......................(2)
伴随矩阵和可逆矩阵关系有:......................(3)
对于指数部分通分后可写成如下形式:
....................(4)
对于式子(4)的分子部分完全可以写成向量形式了: (注:(X-U)是一个n*1维向量,其转置是1*n维向量)
综合(1)(2)(3)(4)式可知:
则整理之后可得:
证毕。
注:1. 上面公式不能直接由word粘贴到这里,所以都是截的图。
2. 对于高斯分布的概率密度函数必须要求m>n(m表示样本数目,n表示特征数目),要不然的话会导致协方差矩阵Σ不可逆,这里简单的证明一下,有兴趣的可以自行严格证明,假设A为nxm维矩阵,B为mxn维矩阵,m<n,故对于AB为nxn维矩阵的秩R(AB)<=R(A)<=m<n,说明AB不可逆。所以,要保证Σ可逆,必须保证要有m>n,实际更确切的讲,实际应用算法中,应当保证m>10n,即样本数至少要保证比样本特征数目多十倍。