期望(平均值)
方差
- 样本点离均值,中心点之间的距离。
总体和抽样
- 大数定理与中心极限定理的意义
- 常用统计量:样本均值、样本方差、标准差、众数(抽样中出现最多的数字)、最小值、最大值,分位数,中位数(50%的样本点),上下四分位数(25%的样本点)。
大数定理
- 当抽样的样本数量越来越大的时候,抽样的均值和标准差、方差也回越来越接近总体的均值和标准差、方差。
中心极限定理
- 无论原来样本空间中的数据是服从怎样的分布,对这个样本的多次抽样的均值组成的新的样本一定是服从正态分布的。
方差与协方差、相关系数
cov()计算协方差矩阵的函数
cor()计算相关系数矩阵的函数
协方差为正数,说明两个随机变量之间是正相关的,正数越大正相关越密切,协方差是负数,说明两个随机变量之间是负相关,负数越小,负相关越大,当协方差是0的时候,两个随机变量之间就是没有关系的。
相关系数主要是反映两个随机变量之间是否有关联,相关系数越接近0,两个随机变量之间越没有关系。越接近1,两个随机变量之间的关系越密切。
> cov(x$x1,x$x2) #计算x1和x2的协方差
[1] 1.553535
> cor(x$x1,x$x2) #计算x1和x2之间的相关系数。
[1] 0.0354692
> cov(x[2:4])
x1 x2 x3
x1 32.498586 1.553535 -24.422626
x2 1.553535 59.030303 4.725253
x3 -24.422626 4.725253 281.848081
> cor(x[2:4])
x1 x2 x3
x1 1.0000000 0.03546920 -0.25518350
x2 0.0354692 1.00000000 0.03663363
x3 -0.2551835 0.03663363 1.00000000
相关分析与回归分析
变量之间的关系
函数关系
相关关系
分析过程
1、先计算相关关系
2、再进行显著性检验
> i1=iris[which(iris$Species=="setosa"),1:2]
> plot(i1) #计算得到Species=="setosa"的数据的相关关系
> cor(i1[1],i1[2])
Sepal.Width
Sepal.Length 0.7425467
> cor.test(i1$Sepal.Length,i1$Sepal.Width) #调用cor的test函数计算置信度为95%时的置信区间。
Pearson's product-moment correlation
data: i1$Sepal.Length and i1$Sepal.Width
t = 7.6807, df = 48, p-value = 6.71e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.5851391 0.8460314 #置信区间为0.5857-----0.8460,相关关系为0.7425,在这个区间内。
sample estimates:
cor
0.7425467
一元线性回归分析
- 回归直线分析
h=c(171,175,159,155,152,158,154,164,168,166,159,164)
w=c(57,64,41,38,35,44,41,51,57,49,47,46)
plot(w~h+1)
lxy<-function(x,y){n=length(x);sum(x*y)-sum(x)*sum(y)/n}
(b=lxy(h,w)/lxy(h,h))
(a=mean(w)-b*mean(h))
a+b*185
lines(h,a+b*h) #作回归直线
(a=lm(w~1+h))
summary(a)
anova(a)
z=data.frame(x=185)
predict(a,z)
predict(a,z,interval="prediction",level=0.95)
判断标准
- 使用summary函数来查看线性模型的汇总情况
- 输出数据中Multiple R-squared的数值越接近1,模型越准确。
错误分析
- 可能不是线性模型,可能是非线性的模型。
- 样本本身就不是正态分布的。