在概率论和统计学中,相关(Correlation,或称相关系数或关联系数),显示两个随机变量之间线性关系的强度和方向。在统计学中,相关的意义是用来衡量两个变量相对于其相互独立的距离。在这个广义的定义下,有许多根据数据特点而定义的用来衡量数据相关的系数。
对于不同测量尺度的变数,有不同的相关系数可用:
Pearson相关系数(Pearson’s r):衡量两个等距尺度或等比尺度变数之相关性。是最常见的,也是学习统计学时第一个接触的相关系数。
净相关(英语:partial correlation):在模型中有多个自变数(或解释变数)时,去除掉其他自变数的影响,只衡量特定一个自变数与因变数之间的相关性。自变数和因变数皆为连续变数。
相关比(英语:correlation ratio):衡量两个连续变数之相关性。
Gamma相关系数:衡量两个次序尺度变数之相关性。
Spearman等级相关系数:衡量两个次序尺度变数之相关性。
Kendall等级相关系数(英语:Kendall tau rank correlation coefficient):衡量两个人为次序尺度变数(原始资料为等距尺度)之相关性。
Kendall和谐系数:衡量两个次序尺度变数之相关性。
Phi相关系数(英语:Phi coefficient):衡量两个真正名目尺度的二分变数之相关性。
列联相关系数(英语:contingency coefficient):衡量两个真正名目尺度变数之相关性。
四分相关(英语:tetrachoric correlation):衡量两个人为名目尺度(原始资料为等距尺度)的二分变数之相关性。
Kappa一致性系数(英语:K coefficient of agreement):衡量两个名目尺度变数之相关性。
点二系列相关系数(英语:point-biserial correlation):X变数是真正名目尺度二分变数。Y变数是连续变数。
二系列相关系数(英语:biserial correlation):X变数是人为名目尺度二分变数。Y变数是连续变数。
吸烟与死亡相关分析:
a=c(500,150,380,170,1100,350,1100,460,230,60,490,240,250,90,300,110,510,250,1300,200)
x=matrix(a,10,2,byrow=T)
plot(x,pch=20,main="吸烟死亡人数随烟消费量变化图",xlab='不同地区的烟消费量',ylab='吸烟死亡人数')