概率论和数理统计的相关概念

期望(平均值)

方差

  • 样本点离均值,中心点之间的距离。

总体和抽样

  • 大数定理与中心极限定理的意义
  • 常用统计量:样本均值、样本方差、标准差、众数(抽样中出现最多的数字)、最小值、最大值,分位数,中位数(50%的样本点),上下四分位数(25%的样本点)。

大数定理

  • 当抽样的样本数量越来越大的时候,抽样的均值和标准差、方差也回越来越接近总体的均值和标准差、方差。

中心极限定理

  • 无论原来样本空间中的数据是服从怎样的分布,对这个样本的多次抽样的均值组成的新的样本一定是服从正态分布的。

方差与协方差、相关系数

这里写图片描述

cov()计算协方差矩阵的函数
cor()计算相关系数矩阵的函数
协方差为正数,说明两个随机变量之间是正相关的,正数越大正相关越密切,协方差是负数,说明两个随机变量之间是负相关,负数越小,负相关越大,当协方差是0的时候,两个随机变量之间就是没有关系的。
相关系数主要是反映两个随机变量之间是否有关联,相关系数越接近0,两个随机变量之间越没有关系。越接近1,两个随机变量之间的关系越密切。

> cov(x$x1,x$x2) #计算x1和x2的协方差
[1] 1.553535
> cor(x$x1,x$x2) #计算x1和x2之间的相关系数。
[1] 0.0354692
> cov(x[2:4])
           x1        x2         x3
x1  32.498586  1.553535 -24.422626
x2   1.553535 59.030303   4.725253
x3 -24.422626  4.725253 281.848081
> cor(x[2:4])
           x1         x2          x3
x1  1.0000000 0.03546920 -0.25518350
x2  0.0354692 1.00000000  0.03663363
x3 -0.2551835 0.03663363  1.00000000

相关分析与回归分析

变量之间的关系
  • 函数关系

  • 相关关系

分析过程
1、先计算相关关系
2、再进行显著性检验
> i1=iris[which(iris$Species=="setosa"),1:2]
> plot(i1) #计算得到Species=="setosa"的数据的相关关系
> cor(i1[1],i1[2])
             Sepal.Width
Sepal.Length   0.7425467   
> cor.test(i1$Sepal.Length,i1$Sepal.Width)  #调用cor的test函数计算置信度为95%时的置信区间。

    Pearson's product-moment correlation

data:  i1$Sepal.Length and i1$Sepal.Width
t = 7.6807, df = 48, p-value = 6.71e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.5851391 0.8460314  #置信区间为0.5857-----0.8460,相关关系为0.7425,在这个区间内。
sample estimates:
      cor 
0.7425467 

一元线性回归分析

  • 回归直线分析
h=c(171,175,159,155,152,158,154,164,168,166,159,164)
w=c(57,64,41,38,35,44,41,51,57,49,47,46)
plot(w~h+1)
lxy<-function(x,y){n=length(x);sum(x*y)-sum(x)*sum(y)/n}
(b=lxy(h,w)/lxy(h,h))
(a=mean(w)-b*mean(h))
a+b*185
lines(h,a+b*h) #作回归直线

(a=lm(w~1+h))
summary(a)
anova(a)
z=data.frame(x=185)
predict(a,z)
predict(a,z,interval="prediction",level=0.95)
  • 判断标准

    • 使用summary函数来查看线性模型的汇总情况
    • 输出数据中Multiple R-squared的数值越接近1,模型越准确。
  • 错误分析

  • 可能不是线性模型,可能是非线性的模型。
  • 样本本身就不是正态分布的。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值