参数估计
- 总体
均值
的区间估计 - 大样本的估计
z.test(table4_1$耗油量,mu=0,sigma.x=sd(table4_1$耗油量),conf.level=0.9)$conf.int
- 小样本的估计
t.test(table4_1)$conf.int
- 两个总体均值之差的估计
- 独立大样本
z.test(table$男性工资,table$女性工资,mu=0,sigma.x = sd(table$男性工资),sigma.y = sd(table$女性工资))$conf.int
- 独立小样本的估计
# 方差相同
t.test(x=table$方法一,y=table$方法二,var.equal = TRUE)$conf.int
#方差不相同
t.test(x=table$方法一,y=table$方法二,var.equal = FALSE)$conf.int
- 配对样本的估计
t.test(table$试卷A,table$试卷B,paired=TRUE)$conf.int
- 总体
比例
的区间估计区间 - 一个总体比例的估计
- 大样本的估计方法
> n<-500 #样本个数
> x<-325 #赞成个数
> p<-x/n
> q<-qnorm(0.975)#1-((1-0.95置信水平)/2)
> LCI<-p-q*sqrt(p*(1-p)/n) #公式
> UCI<-p+q*sqrt(p*(1-p)/n)
> data.frame(LCI,UCI)
> library(Hmisc)
> n<-500
> x<-325
> binconf(x,n,alpha = 0.05,method = "all")
alpha = 1-置信水平**
- 任意大小样本的估计方法
> n1<-500+4 #n'=n+4
> p1<-(325+2)/n1 #x'=x+2
> q<-qnorm(0.975)
> LCI<-p1-q*sqrt(p1*(1-p1)/n1)
> UCI<-p1+q*sqrt(p1*(1-p1)/n1)
> data.frame(LCI,UCI)
- 两个总体比例之差的估计
- 两个大样本的估计方法
> n1<-500+2
> n2<-400+2
> p1<-(225+1)/n1
> p2<-(128+1)/n2
> LCI<-p1-p2-q*sqrt(p1*(1-p1)/n1+p2*(1-p2)/n2)
> UCI<-p1-p2+q*sqrt(p1*(1-p1)/n1+p2*(1-p2)/n2)
> data.frame(LCI,UCI)
- 总体
方差
的区间估计 - 一个总体方差的估计
> library(Hmisc)
> library(TeachingDemos)
> sigma.test(table4_1$重量,conf.level = 0.95)$conf.int
- 两个总体方差比的估计
> var.test(table$方法一,table$方法二,alternative = "two.sided")$conf.int
文章目录
一、参数估计原理
用样本统计量去估计总体统计量(样本到整体)
研究方向:准确性&可靠性
1.1点估计
用估计量的取值直接作为总体参数的估计值
缺点:无法说出点估计与总体参数真实值的接近程度,无法看到偏差范围
1.2 区间估计
在点估计的基础上得到总体参数的估计范围,区间通常是由样本量加减估计误差
不同点:接近程度不同给出的概率度量不一样
- 置信区间:由样本估计量构造出的总体参数在一定置信水平下的估计区间
- 置信区间是一个随机区间,会因为样本不同而变化
- 置信水平:x%的区间包含总体参数的真值
- 样本量确定时,置信区间的宽度随着置信水平的增大而变宽
- 置信水平相同时,样本量越大,置信区间越窄
二、评量估计量的标准
什么样的估计量算好的估计量?
2.1 无偏性
看 样本均值的均值、样本中位数的均值、样本方差的均值 !
> x<-vector();
> y<-vector();
> z<-vector();
> n=10
> for (i in 1:10000) {
+ d<-rnorm(n,50,10)
+ x<-append(x,mean(d))
+ y<-append(y,median(d))
+ z<-append(z,var(d))
+ }
> data.frame(mean(x),mean(y),mean(z))
mean.x. mean.y. mean.z.
1 49.98837 49.99946 100.1865
- 样本均值的均值,样本中位数的均值 接近 总体均值
- 样本方差的均值 接近 总体方差
2.2 有效性
看方差!
利用方差度量估计量与参数的接近程度
估计量的方差越小,估计的越有效
> x<-vector();
> y<-vector();
> n=10
> for(i in 1:10000){
+ d<-rnorm(n)
+ x<-append(x,mean(d))
+ y<-append(y,median(d))}
> data.frame(var(x),var(y))
var.x. var.y.
1 0.1037318 0.1433845
样本均值的方差 小于 样本中位数的方差
样本均值比样本中位数更有效
> x<-vector();
> m<-vector()
> n=10
> for(i in 1:10000){
+ d<-rnorm(n)
+ x<-append(x,mean(d))
+ m<-append(m,median(d))
+ }
> par(mfrow=c(1,2),mai=c(0.7,0.7,0.4,0.2),cex=0.8)
> hist(x,prob=T,col="red",xlim=c(-1.5,1.5),ylim=c(0,1.2),xlab = "样本均值",main="样本均值的分布",cex.main=0.8)
> lines(density(x),col="lightblue",lwd=2)
> hist(y,prob=T,col="red",=c(-1.5,1.5),ylim=c(0,1.2),xlab = "中位数",main="样本中位数的分布",cex.main=0.8)
> lines(density(y),col="lightblue",lwd=2)
2.3 一致性
随着样本量的无限增大,统计量收敛于所估计总体的参数
一个大样本得到的估计量更接近总体参数
set.seed(12)
> n=rnorm(1000,50,10)
> mu=mean(n)
> xbar10<-mean(sample(n,10,replace = F))
> xbar100<-mean(sample(n,100,replace = F))
> xbar500<-mean(sample(n,500,replace = F))
> xbar900<-mean(sample(n,900,replace = F))
> data.frame(总体均值=mu,xbar10,xbar100,xbar500)
总体均值 xbar10 xbar100 xbar500
1 49.73563 49.17006 50.66988 49.94489
样本量逐渐增大,样本均值越来越接近总体均值
三、总体均值的区间估计
3.1 个总体均值的估计
3.1.1 一个总体均值的估计
大样本的估计
样本方差➡️总体方差
> z.test(table4_1$耗油量,mu=0,sigma.x=sd(table4_1$耗油量),conf.level=0.9)$conf.int
[1] 7.835887 8.099113
attr(,"conf.level")
[1] 0.9
小样本的估计
确认总体服从正态分布
> t.test(table4_1)$conf.int
[1] 101.3748 109.3452
attr(,"conf.level")
[1] 0.95
3.1.2 两个总体均值之差的估计
独立大样本的估计
> z.test(table$男性工资,table$女性工资,mu=0,sigma.x = sd(table$男性工资),sigma.y = sd(table$女性工资))$conf.int
[1] 1826.052 2212.398
attr(,"conf.level")
[1] 0.95
独立小样本的估计
# 方差相同
> table<-read.csv("/Users/zhourui/Documents/example5_4.csv")
> t.test(x=table$方法一,y=table$方法二,var.equal = TRUE)$conf.int
[1] 0.1402936 7.2597064
attr(,"conf.level")
[1] 0.95
#方差不相同
> t.test(x=table$方法一,y=table$方法二,var.equal = FALSE)$conf.int
[1] 0.1384265 7.2615735
attr(,"conf.level")
[1] 0.95
3.3 配对样本的估计
- 配对:一个样本中的数据与另一个样本中的数据相对应
- 数据通常是同一个个体所做的前后两次测量
> t.test(table$试卷A,table$试卷B,paired=TRUE)$conf.int
[1] 6.327308 15.672692
attr(,"conf.level")
[1] 0.95
3.3 总体比例的区间
3.3.1一个总体比例的估计
大样本的估计方法
q<-qnorm(0.975)#1-((1-0.95置信水平)/2)
> n<-500 #样本个数
> x<-325 #赞成个数
> p<-x/n
> q<-qnorm(0.975)#1-((1-0.95置信水平)/2)
> LCI<-p-q*sqrt(p*(1-p)/n) #公式
> UCI<-p+q*sqrt(p*(1-p)/n)
> data.frame(LCI,UCI)
LCI UCI
1 0.6081925 0.6918075
> library(Hmisc)
> n<-500
> x<-325
> binconf(x,n,alpha = 0.05,method = "all")
PointEst Lower Upper
Exact 0.65 0.6064011 0.6918131
Wilson 0.65 0.6071929 0.6905198
Asymptotic 0.65 0.6081925 0.6918075
alpha = 1-置信水平
任意大小样本的估计方法
> n1<-500+4 #n'=n+4
> p1<-(325+2)/n1 #x'=x+2
> q<-qnorm(0.975)
> LCI<-p1-q*sqrt(p1*(1-p1)/n1)
> UCI<-p1+q*sqrt(p1*(1-p1)/n1)
> data.frame(LCI,UCI)
LCI UCI
1 0.6071358 0.6904833
3.3.2 两个总体比例之差的估计
两个大样本的估计方法
> p1<-225/500
> p2<-128/400
> q<-qnorm(0.975)
> LCI<-p1-p2-q*sqrt(p1*(1-p1)/500+p2*(1-p2)/400)
> UCI<-p1-p2+q*sqrt(p1*(1-p1)/500+p2*(1-p2)/400)
> data.frame(LCI,UCI)
LCI UCI
1 0.06682346 0.1931765
> n1<-500+2
> n2<-400+2
> p1<-(225+1)/n1
> p2<-(128+1)/n2
> LCI<-p1-p2-q*sqrt(p1*(1-p1)/n1+p2*(1-p2)/n2)
> UCI<-p1-p2+q*sqrt(p1*(1-p1)/n1+p2*(1-p2)/n2)
> data.frame(LCI,UCI)
LCI UCI
1 0.06624396 0.1923634
3.4 总体方差的区间估计
3.4.1 一个总体方差的估计
> library(Hmisc)
> library(TeachingDemos)
> sigma.test(table4_1$重量,conf.level = 0.95)$conf.int
[1] 56.82897 180.38811
attr(,"conf.level")
[1] 0.95
3.4.2 两个总体方差比的估计
> var.test(table$方法一,table$方法二,alternative = "two.sided")$conf.int
[1] 0.2378836 2.8704428
attr(,"conf.level")
[1] 0.95