“题外话:相关性不是因果,相关性只能说数据上来讲两个或多个因素具有正/负/无相关性,其间没有谁决定谁的关系”
相关系数(correlation coefficient)用于描述两个变量之间的相关程度。一般在[-1, 1]之间。有,pearson相关系数:适用于连续性变量,且变量服从正态分布的情况,为参数性的相关系数。spearman等相关系数:适用于连续性及分类型变量,为非参数性的相关系数。
cor.test()和cor()是R包中自带的计算相关系数的函数,两者差别仅为cor()只给出相关系数一个值,cor.test()给出相关系数,n(个数)、p值等。
01 — 向量与向量相关> x > set.seed(1234)> y > # "pearson" (默认), "kendall", or "spearman":> cor(x,y)[1] -0.1069777> cor(x,y,method = "pearson")[1] -0.1069777> plot(x,y) #见图1
> cor.test(x,y) Pearson's product-moment correlationdata: x and yt = -0.30432, df = 8, p-value = 0.7686alternative hypothesis: true correlation is not equal to 095 percent confidence interval: -0.6901203 0.5603945sample estimates: cor -0.1069777
上图1
> dt > head(dt) Sepal.Length Sepal.Width Petal.Length Petal.Width1 5.1 3.5 1.4 0.22 4.9 3.0 1.4 0.23 4.7