无监督学习-数学前奏(一)协方差矩阵

动机:

由于组内缺少数据集标签,而又没时间对数据进行标签,因此希望通过无监督学习方法,对数据进行分类。进而,通过对自动分类后的数据集进行采样标记,进而得到整体的数据标签。目前了解无监督学习,一般先了解K-means法和PCA,这涉及众多的数学知识,很多都已经不是很清晰了,此篇针对PCA中关于协方差部分,以此记录。

目的:

1.熟悉协方差,相关系数的出现的原因

2.熟悉协方差,相关系数公式

3.熟悉其内在原理

 

1.协方差出现的原因

为了了解两个随机变量的关系,因此引入协方差概念。由于协方差仅仅能描述两个随机变量是否有关系,而不能描述两个随机变量的关系密切程度,因此引入相关系数,以此描述两个随机变量的密切程度。

2.协方差、相关系数公式

ρXY是随机变量X和Y的相关系数,则有

(1)∣ρXY∣≤1;

(2)∣ρXY∣=1充分必要条件为P{Y=aX+b}=1,(a,b为常数,a≠0)

3.内在原理

第一次遇见协方差是在计算两个随机变量和的方差

我们希望有一个公式描述两个随机变量之间的关系。由以前知识得到,当两个随机变量不相关,则上述公式中Cov(X,Y)为0。当Cov(X, Y)不为0, 则表示X, Y相关,即他们一定存在着某种神秘的关系。于是我们就琢磨,能否用这个协方差描述两个随机变量的亲密程度,我们不仅仅想知道两个随机变量是否相关,我们还想知道他们亲密到什么程度

经过探索可得,协方差不能表示两个随机变量的亲密程度,例如

对随机变量X, Y分别乘以k常数,依照我们的期望,他们之间的关系不会改变。这就像两个向量拉伸或者压缩一样,他们本不应该更加亲密。而公式右边计算的结果却表明,他们更加亲密了。因此这不是我们想要的结果。

*******************

于是,在协方差的基础上,相关系数的概念就被提出来了

我们希望即使拉伸、压缩或者增加常量,随机变量之间的关系也不会改变。那么如何达到这样的效果?

经过思考,考虑单位化的随机变量,即将随机变量变为均值为零,方差为1.

通过这样对随机变量进行操作后,即使你对随机变量执行线性变换(就是加权求和,y=ax+b),X*,Y*的均值依然为0,方差依然为1。依照方差和均值的定义,这显而易见。

通过这么做,我们得到原始随机变量的单位化表示,即X*, Y*。再求这两个随机变量的协方差,简单求解可知

即相关系数,我们通过构造一个新的表达式来表示两个随机变量的亲密程度。

那么为什么这个表达式可以表示两个随机变量的亲密程度,它为什么可以达到我们的期望呢?

这个表达式性质如下:
1.当Cov(X, Y)为0,则ρXY也为零.

2.Y=aX+b时候,即我们认为两个随机变量最亲密的时候,ρXY计算为1。

**********

因此相关系数满足了我们的要求,即两个随机变量不相关时候,数值计算为0.在线性相关(我们认为这两个随机变量为一模一样的时候),计算的值为1.

 

 

我有一个疑问,提出这个概念的人是为什么一定将原随机变量转化为均值为0,方差为1的。干嘛不直接在原来的协方差基础上除以E(X)E(Y),而要除以 两个随机变量的标准差?这样做还有什么别的好处么,小白请赐教?


1相关链接

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值