散布矩阵(Scatter Matrix)


参考网页:http://en.wikipedia.org/wiki/Scatter_matrix

译文转载自:http://blog.csdn.net/breeze5428/article/details/25612763

因为最近需要用到散布矩阵做数据分析,因此在此做些关于散布矩阵的小总结。在多变量概率统计中,散布矩阵是用来估计多维正态分布协方差的统计量。

定义

给定n个维的样本,用矩阵的矩阵表示以上数据,其中。于是可得样本的均值为

\overline{\mathbf{x}} = \frac{1}{n}\sum_{j=1}^n \mathbf{x}_j

其中\mathbf{x}_j 是矩阵 X\,的第.

散布矩阵为的半正定矩阵

S = \sum_{j=1}^n (\mathbf{x}_j-\overline{\mathbf{x}})(\mathbf{x}_j-\overline{\mathbf{x}})^T = \sum_{j=1}^n (\mathbf{x}_j-\overline{\mathbf{x}})\otimes(\mathbf{x}_j-\overline{\mathbf{x}}) = \left( \sum_{j=1}^n \mathbf{x}_j \mathbf{x}_j^T \right) - n \overline{\mathbf{x}} \overline{\mathbf{x}}^T

 其中T表示矩阵的转置。散布矩阵可以简要的表示为

S = X\,C_n\,X^T

在此,\,C_n定义为centering matrix,具体定义为

C_n =  I_n - \tfrac{1}{n}\mathbb{O}

 {\displaystyle \mathbb {O} }\mathbb {O}  是一个n*n的全1矩阵

在最大似然估计中, 给定n个样本,一个多元正太分布的协方差可以表示为归一化的散度矩阵:

C_{ML}=\frac{1}{n}S.

X\,中的样本从多元正态分布中独立抽取,则  S\, 服从Wishart分布.


与协方差的关系

以上仅是从维基百科上翻译过来的内容,不难发现散布矩阵和协方差矩阵的关系。散布矩阵前乘以系数1/n就可以得到协方差矩阵。如果熟悉PCA,我们就会发现可以利用散度矩阵做PCA。



评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值