协方差可以反映两个变量的相关性,若协方差一直为正,则两个变量正相关,若协方差一直为负,则两个变量负相关。但是协方差会出现两个变量的量纲不相同的情况。此时便需要使用皮尔逊相关系数。
使用皮尔逊相关系数的条件:必须要事先画出散点图确认这两个变量是线性相关的,才能够用皮尔逊相关系数反映相关程度。皮尔逊相关系数只是后用来衡量两个变量线性相关程度的指标。
离群点对相关系数的影响很大,因此即使两个变量的相关系数很大,也不能说明两者相关。
皮尔逊相关系数可以看成是剔除了两个变量量纲影响,即将X和Y标准化后的协方差。
总体皮尔逊相关系数:
操作步骤:
1、先对数据进行描述性统计:
2、画出散点图并确定是否为线性惯性,计算得到皮尔逊系数;
3、验证皮尔逊相关系数假设检验(是否具有显著性)的条件是否满足:
(1)实验数据通常假设是成对的来自于正态分布的总体(因为需要用到t检验,而t检验是基于数据呈正态分布);
JB检验:正态分布的偏度为0,峰度为3(n>30)
(2)实验数据之间的差距不能太大。皮尔逊相关性系数受异常值影响比较大;
(3)每组样本之间是独立抽样的。构造t统计量时需要用到;
4、假设检验:
代码:corrcoef(皮尔逊相关系数)
x= normrnd(2,3,100,1):生成100*1的随机变量,每个元素是均值为2,标准差为3的正态分布;
skewness(x):求函数x的偏度;
kurtosis(x) :求函数x的偏度;