概率论和数理统计的相关概念

最新推荐文章于 2024-08-19 09:09:45 发布

tonydandelion2014

最新推荐文章于 2024-08-19 09:09:45 发布

阅读量2.4k

点赞数 1

分类专栏： R语言

本文链接：https://blog.csdn.net/tonydandelion2014/article/details/51469667

版权

R语言专栏收录该内容

3 篇文章 1 订阅

订阅专栏

期望（平均值）

方差

样本点离均值，中心点之间的距离。

总体和抽样

大数定理与中心极限定理的意义
常用统计量：样本均值、样本方差、标准差、众数（抽样中出现最多的数字）、最小值、最大值，分位数，中位数（50%的样本点），上下四分位数（25%的样本点）。

大数定理

当抽样的样本数量越来越大的时候，抽样的均值和标准差、方差也回越来越接近总体的均值和标准差、方差。

中心极限定理

无论原来样本空间中的数据是服从怎样的分布，对这个样本的多次抽样的均值组成的新的样本一定是服从正态分布的。

方差与协方差、相关系数

这里写图片描述

cov()计算协方差矩阵的函数
cor()计算相关系数矩阵的函数
协方差为正数，说明两个随机变量之间是正相关的，正数越大正相关越密切，协方差是负数，说明两个随机变量之间是负相关，负数越小，负相关越大，当协方差是0的时候，两个随机变量之间就是没有关系的。
相关系数主要是反映两个随机变量之间是否有关联，相关系数越接近0，两个随机变量之间越没有关系。越接近1，两个随机变量之间的关系越密切。

> cov(x$x1,x$x2) #计算x1和x2的协方差
[1] 1.553535
> cor(x$x1,x$x2) #计算x1和x2之间的相关系数。
[1] 0.0354692
> cov(x[2:4])
           x1        x2         x3
x1  32.498586  1.553535 -24.422626
x2   1.553535 59.030303   4.725253
x3 -24.422626  4.725253 281.848081
> cor(x[2:4])
           x1         x2          x3
x1  1.0000000 0.03546920 -0.25518350
x2  0.0354692 1.00000000  0.03663363
x3 -0.2551835 0.03663363  1.00000000

相关分析与回归分析

变量之间的关系

函数关系
相关关系

分析过程

1、先计算相关关系

2、再进行显著性检验

> i1=iris[which(iris$Species=="setosa"),1:2]
> plot(i1) #计算得到Species=="setosa"的数据的相关关系
> cor(i1[1],i1[2])
             Sepal.Width
Sepal.Length   0.7425467   
> cor.test(i1$Sepal.Length,i1$Sepal.Width)  #调用cor的test函数计算置信度为95%时的置信区间。

    Pearson's product-moment correlation

data:  i1$Sepal.Length and i1$Sepal.Width
t = 7.6807, df = 48, p-value = 6.71e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.5851391 0.8460314  #置信区间为0.5857-----0.8460，相关关系为0.7425，在这个区间内。
sample estimates:
      cor 
0.7425467

一元线性回归分析

回归直线分析

h=c(171,175,159,155,152,158,154,164,168,166,159,164)
w=c(57,64,41,38,35,44,41,51,57,49,47,46)
plot(w~h+1)
lxy<-function(x,y){n=length(x);sum(x*y)-sum(x)*sum(y)/n}
(b=lxy(h,w)/lxy(h,h))
(a=mean(w)-b*mean(h))
a+b*185
lines(h,a+b*h) #作回归直线

(a=lm(w~1+h))
summary(a)
anova(a)
z=data.frame(x=185)
predict(a,z)
predict(a,z,interval="prediction",level=0.95)