相关性测量在工业检测中的应用

0. 引言

    相关性测量在工业检测(尺寸测量)中经常会用到,比如你用相机测得工件的宽度与精密仪器测的宽度进行相关性测试,一般客户会要求相关性达到85%,个别会要求达到90%以上。

那么相关性该如何测试呢,公式是什么?

1. Pearson 相关系数

    统计学有三大相关系数:pearson(皮尔森)相关系数、spearman(斯皮尔曼)相关系数和kendall(肯德尔)相关系数。其中,spearman和kendall属于等级相关系数亦称为“秩相关系数”,是反映等级相关程度的统计分析指标,这两应用中目前没接触过。pearson相关系数应用领域比较广泛。

    Pearson是一个介于-1和1之间的值,用来描述两组线性的数据一同变化移动的趋势。

        当两个变量的线性关系增强时,相关系数趋于1或-1;

        当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;

        如果一个变量增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于0;

        如果相关系数等于0,表明它们之间不存在线性相关关系。

   Pearson相关系数等于两个变量的协方差除以两个变量的标准差,公式如下:

                                     

 

【注】:

协方差(Covariance):在概率论和统计学中用于衡量两个变量的总体误差。如果两个变量的变化趋于一致,也就是说如果其中一个大于自身的期望值,另一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,则协方差为负值。

                                                                              

其中u表示X的期望E(X), v表示Y的期望E(Y)。

相关系数也被称为一种剔除了两个变量量纲影响、标准化后的特殊协方差,具有两个性质:

①也可以反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负;

②它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度;

2. Pearson系数对绝对数值不敏感,pearson描述的是两组数据变化移动的趋势
    考虑这三组数据,1:(1.0,2.0,3.0,4.0), 2:(40.0,50.0,70.0,80.0), 3:(50.0,60.0,70.0,80.0),

我们可以直观的认为2和3更为相似,它们的重叠评分数目一致,趋势也相同,记录1虽然也满足上述的条件,但是它整体数值很低。

在现实中,有人习惯于给出更高的评分,而有人则恰恰相反。
    利用pearson计算它们之间的相似度为:
     1&2: 0.9899494936611665

     2&3: 0.9899494936611665

     1&3: 0.9999999999999999
    可以看出pearson系数对绝对数值并不敏感,它确实只是描述了两组数据变化的趋势。

3. 相关系数:考察两个事物(在数据里我们称之为变量)之间的相关程度。 

(1)、当相关系数为0时,X和Y两变量无关系。

(2)、当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。

(3)、当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。 

相关系数的绝对值越大,相关性越强,相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。

通常情况下通过以下取值范围判断变量的相关强度:

0.8-1.0     极强相关                 

0.6-0.8     强相关                 

0.4-0.6     中等程度相关                 

0.2-0.4     弱相关                 

0.0-0.2     极弱相关或无相关

4. pearson皮尔森相关系数

皮尔逊相关系数是一种度量两个变量间相关程度的方法。它是一个介于 1 和 -1 之间的值,其中,1 表示变量完全正相关, 0 表示无关,-1 表示完全负相关。

当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:

(1)、两个变量之间是线性关系,都是连续数据。

(2)、两个变量的总体是正态分布,或接近正态的单峰分布。

(3)、两个变量的观测值是成对的,每对观测值之间相互独立。

5. 小结

6.  Excel中的相关性分析,可采用RSQ(known_y's,known_x's);RSQ返回pearson相关系数的平方,又称R平方;

7. 另一相关系数的公式如下:

                                                         

①相关系数只是用来衡量两个变量线性相关程度的指标;也就是说,你必须先确认这两个变量是线性相关的,然后这个相关系数才能告诉你他俩相关程度如何;

非线性相关也会导致线性相关系数很大

③做pearson相关判定时,先做散点图,观察两变量的散点是否趋于一条直线,也可以这样说,两个变量是否是线性关系。只有知道了两个变量是线性关系的才能有pearson相关系数;
④做pearson相关分析时,两个变量的联合变量必须符合正态分布,但不是说两个变量各自必须符合正态分布,一般情况下,其中一个变量符合正态分布的时候,同样可以进行线性相关分析,而且结果也相当可靠。
⑤如果样本变量中存在极端值,可以对极端值进行剔除,然后再进行相关分析。又或数据不合适线性分析时,可以先对数据进行调整,比如取对数后,再进行相关分析。

8. 思考一个问题,如何才能提高两个变量的相关性呢,相关性增长的影响因素是什么?

本篇文章参考:

1. https://blog.csdn.net/wenbingoon/article/details/17414063

2. http://www.cnblogs.com/kemaswill/archive/2012/11/01/2749842.html

3. https://blog.csdn.net/wangdong1106/article/details/52590447

4. https://blog.csdn.net/SZuoDao/article/details/52314420?locationNum=7

5. https://blog.csdn.net/witforeveryang/article/details/42585791

6. https://www.zhihu.com/question/20852004

7. http://www.doc88.com/p-1476192606238.html

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值