皮尔逊相关系数
相关系数
- 皮尔逊person相关系数 — 一种线性相关系数
- 斯皮尔曼spearman等级相关系数
衡量两个变量之间的相关性的大小,根据数据满足的不同条件选择不同的相关系数进行计算和分析
相关系数的选择
皮尔逊相关系数
1. 总体皮尔逊相关系数
- 皮尔逊相关系数反应的是一种线性相关系数
协方差的大小与两个变量的量纲有关,所以不适合比较
皮尔逊相关系数可以看成标准化后的协方差
2. 样本皮尔逊相关系数
- 样本相关系数,样本标准差分母为 n − 1 n-1 n−1是因为无偏估计量
3. 皮尔逊相关系数理解误区
- 一定要先画散点图,图中表示了线性关系(即先确定线性相关),才能用皮尔逊相关系数
即:
皮尔逊相关系数假设检验的条件
描述性统计
matlab
Excel
SPSS
求相关系数过程
皮尔逊相关系数 — 一种线性相关系数
判断数据是否是正态分布
对多个指标画散点图
当有多个指标的时候,需要画出两两指标的散点图,使用SPSS比较方便
通过每两个指标的散点图来查看是否是线性相关(即查看是否可以使用皮尔逊相关系数)
- 在SPSS中的操作
导入数据 --> 图形 --> 旧对话框 --> 散点图/点图 --> 矩阵散点图
求皮尔逊相关系数
- 在matlab操作 — corrcoef函数
[R,P] = corrcoef(A)
以A中的每一列为一组数据
R: 返回A的相关系数矩阵
P: 对于每个相关系数的
P
P
P值
A的某列代表所以样本的某个指标
A的某行代表一个样本
corrcoef(A,B)
返回两个随机变量A B之间的系数
将相关系数可视化
- 使用Excel
例如:
对相关系数表进行显著性标注
1. matlab中:
- 求概率密度值
tpdf(x,n)
tpdf:求t分布在点x处,自由度为n 的概率密度值
x:为指定求从负无穷到x区间
n:为自由度
例如:
x = -4:0.1:4;
y = tpdf(x,28);
plot(x,y);
概率为概率密度图与x轴的面积
- 求p值(p为概率密度图中的面积)对应的x
x = tinv(p,n)
tinv: 代表t分布的 累计密度函数(cdf) 的反函数
p:为概率密度图中 从负无穷–>点x的 面积
n:为自由度
例如:
x = tinv(0.975,28) % x = 2.0484
得到了对应的x
从
−
∞
→
x
-\infty \to x
−∞→x,使得 t分布 自由度为28,p为0.975
- 求累计密度p
即与x轴包围的面积
p = tcdf(x,n)
tcdf: 累计密度函数
p:为概率密度图中 从
−
∞
→
x
-\infty \to x
−∞→x的 面积 — 即为概率
n:自由度
- 使用概率论与数理统计中的P值
两种求法:
- 法1
[R,P] = corrcoef(A) % P为该处双侧检验的P值
- 法2
当为单侧检验:
∴ \therefore ∴P = 1 - tcdf(x,n)
当为双侧检验:
∴ \therefore ∴P = (1 - tcdf(x,n)) * 2
- 该P值需要与显著性水平进行比较
1. 自行标记:
拒绝 | 无法拒绝
-------- | -----
P < 0.01 说 明 在 99 % 置 信 水 平 上 拒 绝 原 假 设 P<0.01 说明在99\%置信水平上拒绝原假设 P<0.01说明在99%置信水平上拒绝原假设 | P > 0.01 说 明 在 99 % 置 信 水 平 上 无 法 拒 绝 原 假 设 P>0.01 说明在99\%置信水平上无法拒绝原假设 P>0.01说明在99%置信水平上无法拒绝原假设
P < 0.05 说 明 在 95 % 置 信 水 平 上 拒 绝 原 假 设 P<0.05 说明在95\%置信水平上拒绝原假设 P<0.05说明在95%置信水平上拒绝原假设 | P > 0.05 说 明 在 95 % 置 信 水 平 上 无 法 拒 绝 原 假 设 P>0.05 说明在95\%置信水平上无法拒绝原假设 P>0.05说明在95%置信水平上无法拒绝原假设
P < 0.10 说 明 在 90 % 置 信 水 平 上 拒 绝 原 假 设 P<0.10 说明在90\%置信水平上拒绝原假设 P<0.10说明在90%置信水平上拒绝原假设 | P > 0.10 说 明 在 90 % 置 信 水 平 上 无 法 拒 绝 原 假 设 P>0.10 说明在90\%置信水平上无法拒绝原假设 P>0.10说明在90%置信水平上无法拒绝原假设
- 对相关系数表进行标记
当 P < 0.01 P<0.01 P<0.01 标注 ∗ ∗ ∗ *** ∗∗∗
当 P < 0.05 a n d P > 0.01 P<0.05 and P>0.01 P<0.05andP>0.01 标注 ∗ ∗ ** ∗∗
当 P < 0.10 a n d P > 0.05 P<0.10 and P>0.05 P<0.10andP>0.05 标注 ∗ * ∗
2. SPSS:
分析 -> 相关 -> 双变量
- 双尾/单尾: 双侧检验/单侧检验
- 标记显著性相关性: 进行显著性标记