机器学习中的度量——协方差、相关系数(Pearson 相关系数)

一、相关系数第一次理解

概念:Pearson相关系数 (Pearson CorrelationCoefficient)是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。[1]
注:

    【定距变量】[2][3]
    若想理解定距变量,需要与其他变量类型进行比对。
    统计学依据数据的计量尺度将数据划分为四大类 ,即定距型数据、定序型数据、定类型数据和定比型数据。

    定距型数据是数字型变量,可以求加减平均值等,但不存在基准0值,即当变量值为0时不是表示没有,如温度变量,当温度为0时,并不是表示没有温度,这样温度就为定距变量,而不是定比变量。
    定序型数据具有内在固有大小或高低顺序,如职称变量可以有低级、中级和高级三个取值,可以分别用1、2、3等表示。有大小或高低顺序,但数据之间却是不等距的,因为低级和中级职称之间的差距与中级和高级职称之间的差距是不相等的,因此可以排序,但不能加减。
    定类型数据是指没有内在固定大小或高低顺序,如性别男和女;
    定比型变量就是常说的数值变量,既有测量单位,也有绝对零点。例如职工人数,身高。

线性关系

    【线性关系】[4]
    两个变量之间存在一次方函数关系,就称它们之间存在线性关系。正比例关系是线性关系中的特例,反比例关系不是线性关系。更通俗一点讲,如果把这两个变量分别作为点的横坐标与纵坐标,其图象是平面上的一条直线,则这两个变量之间的关系就是线性关系。即如果可以用一个二元一次方程来表达两个变量之间关系的话,这两个变量之间的关系称为线性关系。

    线性关系的显著特征是图像为过原点的直线(没有常数项的情况下,如:y=kx+jz,(k,j为常数,x,z为变量);而当图像为不过原点的直线时,函数称为直线关系。线性关系与直线关系是不同的,经常被大家混淆。
    线性关系的函数具备如下特点:
    (1)每一项(常数项除外)的次数必须是一次的(这是最重要的)。如:x=y+z+c+v+b。如果出现平方,这些就肯定不是线性关系。
    如果每项的次数不是一次就不是线性关系:x=yz(这里假定y,z是变量而不是常数),那么x与y,或x与z就不是线性关系。
    (2)常数对是否构成直线关系没影响(假定常数不为0)如:x=ky+l*z+a。

用途:[5] pearson系数用来描述两组线性的数据一同变化移动的趋势。
公式:[5]
用数学公式表示,皮尔森相关系数等于两个变量的协方差除于两个变量的标准差。

X、Y线性相关时,两个变量的协方差等于两个变量各自标准差的乘积,此时皮尔森相关系数为1。

公式理解:

值域:[-1,1]
使用情况:
Pearson相关系数常用于基于用户的推荐系统,比其他对比用户的方法更胜一筹。(相对的,在基于物品的推荐系统中,常使用余弦相似度方法。)[6]

由于pearson描述的是两组数据变化移动的趋势,所以在基于user-based的协同过滤系统中,经常使用。描述用户购买或评分变化的趋势,若趋势相近则pearson系数趋近于1,也就是我们认为相似的用户。[5]
缺陷:笔者尚未理解明白,所以只粘贴原文了。
(1)存在一些所有人都喜爱的物品,让两个用户对有争议的物品达成共识会比对广受欢迎的物品达成共识更有价值,但Pearson这样的相似度方法无法将这种情况考虑在内。[6] Page10
(2)某博主关于重叠项的思考。 [5]
该部分如有了解的朋友,还请留下指点,不胜感谢。
皮尔森系数与修正余弦相似度的区别:[8]
两者在公式形式上极其相似,所以需要进行对比区分。
由于没有实际应用过,尚且没有明白透彻,所以此处只提几点表面上的理解。

两者计算的形式很类似,但是有具体的细节差别,在分母和分子上都有体现。归纳起来:差别就在去中心化的方式上。

修正余弦公式和皮尔森相关系数公式都是针对item-based CF计算item-item之间相似性的,所以修正余弦公式减去了用户的打分均值,皮尔森相关系数公式减去了item得分均值。(换句话说,修正cosine考虑的是对item i打过分的每个user u,其打分的均值,Pearson考虑的是每个item i 的被打分的均值。)

两者为什么要去中心化呢?(两种方式减去均值)
(1)修正cosine相似度的目的是解决cosine相似度仅考虑向量维度方向上的相似而没考虑到各个维度的量纲的差异性,所以在计算相似度的时候,做了每个维度减去均值的修正操作。
(2)Pearson correlation 相关系数主要考虑线性相关性,定义为两个变量之间的协方差和标准差的商,所以自然的考虑了均值的修正操作。

简便记忆方法
可以看出,公式比较长,可以使用点积进行记忆。公式形式上简单后,也更便于理解。

各种相似度与点积关系的推演:
cosine相似度,其实就是归一化后的点积结果,
Pearson相关系数是去中心化&归一化的点积结果
修正cosine相似度,也是去中心化&归一化的点积结果,与Pearson的差别就在于去中心化的差异(上面描述的)
公式参考如下:
点积:

cosine相似度:

Pearson相关系数:

##参考文献
[1] Pearson相关系数_百度百科
[2] 定距变量_百度百科
[3] 举例说明定类数据,定序数据,定距数据和定比数据的区别_百度知道
[4] 线性关系_百度百科
[5] Pearson 相关系数–最佳理解及相关应用-CSDN博客
[6] 《推荐系统 》书籍 Dietmar Jannach, Markus Zanker etc 蒋帆译
[7] 皮尔森相关系数及原理_smilingflowers
[8] 修正余弦相似度和皮尔森系数什么关系?- 知乎

 

“度量”主要由两种,分别为距离、相似度和相关系数,距离的研究主体一般是线性空间中点;而相似度研究主体是线性空间中向量;相关系数研究主体主要是分布数据。本文主要介绍相关系数。

1 皮尔逊相关系数——常用的相关系数

      机在统计学中,皮尔逊相关系数(earson correlation coefficient)用于度量两个变量X和Y之间的相关程度(线性相关),其值介于-1与1之间。在自然科学领域中,该系数广泛用于度量两个变量之间的线性相关程度。它是由卡尔·皮尔逊从弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来。
对于总体(由许多有某种共同性质的事物组成的集合),给定随机变量(X, y),总体皮尔逊相关系数的定义为

 

ρX,Y=cov(X,Y)σXσY=E((X−μX)(Y−μY))σXσY

 

      机其中cov(X,Y)是随机变量X和随机变量Y之间的协方差
      机σx是随机变量X的方差
      机σy是随机变量Y的方差
      机μx是随机变量X的均值
      机μy是随机变量Y的均值

      机对于同样本来说,给定样本对{(x1, y1), (x2,y2), …, (xn, yn)} ,样本皮尔逊相关系数的定义为

 

rx,y=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2−−−−−−−−−−√∑i=1n(yi−y¯)2−−−−−−−−−−√=n∑i=1nxiyi−∑i=1nxi∑i=1nyin∑i=1nx2i−(∑i=1nxi)2−−−−−−−−−−−−−−−√n∑i=1ny2i−(∑i=1nyi)2−−−−−−−−−−−−−−−√

 

      机其中n是样本数量
      机Xi, yi是第i个独立的样本数据
      机x是所有xi的均值
      机y是所有yi的均值

 

 

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值