协方差的概念与意义

以下内容转自http://blog.csdn.net/jackyworks/article/details/16337901

在做数字图像处理的时候,特别是PCA降维的时候,很多情况下要遇到协方差矩阵,其实一直糊里糊涂的不知道到底是个什么东西,以下是我收集的网上资料做的整理和自己的一些理解。

统计学的基本概念

    学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差。首先我们给你一个含有n个样本的集合,依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而过。

均值:

,表示:样本集合的中间点,它告诉我们的信息是很有限的。

方差:

,表示样本集合的各个样本点到均值的距离之平均。以这两个集合为例,[0,8,12,20]和[8,9,11,12],两个集合的均值都是10,但显然两个集合差别是很大的,计算两者的标准差,前者是8.3,后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”,也可以理解为“样本间的紧凑程度”。

为什么需要协方差?

    均值、方差这些数字特征只能处理一维问题,为了描述2维随机变量的关系,于是引入了协方差。协方差的概念如下:

    \operatorname{cov}(X, Y) = \operatorname{E}((X - \mu) (Y - \nu))

    其意义是:度量各个维度偏离其均值的程度。协方差的值如果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),结果为负值就说明负相关的,如果为0,也是就是统计上说的“相互独立”。

协方差矩阵

    显然,协方差只能处理2维问题,如果遇到N维问题,就需要“多个协方差”(以N维为例,总共需要个协方差),因此,可以用一个矩阵“使用矩阵来组织这些协方差”,称其为协方差矩阵。

    假设N维样本为X1, X2, ......, Xn,则对应的协方差矩阵为:

    

    可见,协方差矩阵是一对称的矩阵,而且对角线是各个维度上的方差非对角线上的元素表示的是各个维度之间的相关性

  协方差是反映的变量之间的二阶统计特性,如果随机向量的不同分量之间的相关性很小,则所得的协方差矩阵几乎是一个对角矩阵协方差矩阵的一个很出色的应用就是在PCA中,选择主方向。对于一些特殊的应用场合,为了使随机向量的长度较小,可以采用PCA(主成分分析)的方法,使变换之后的变量的协方差矩阵完全是一个对角矩阵,之后舍弃一些能量较小的分量,来得到主方向(对角线上的元素反映的是各维度的方差,也就是交流能量,方差值较小的维度舍去)。特别是在模式识别领域,当模式向量的维数过高时会影响识别系统的泛化性能,经常需要做这样的降维处理

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值