R语言 CHAR 05

hwsnowww

已于 2022-03-15 18:14:03 修改

阅读量481

点赞数

分类专栏： R 文章标签： r语言

于 2021-10-23 18:13:25 首次发布

本文链接：https://blog.csdn.net/hwsnowww/article/details/120885141

版权

R 专栏收录该内容

11 篇文章 2 订阅

订阅专栏

参数估计

总体均值的区间估计
大样本的估计

z.test(table4_1$耗油量,mu=0,sigma.x=sd(table4_1$耗油量),conf.level=0.9)$conf.int

小样本的估计

t.test(table4_1)$conf.int

两个总体均值之差的估计
独立大样本

z.test(table$男性工资,table$女性工资,mu=0,sigma.x = sd(table$男性工资),sigma.y = sd(table$女性工资))$conf.int

独立小样本的估计

# 方差相同
t.test(x=table$方法一,y=table$方法二,var.equal = TRUE)$conf.int
#方差不相同
t.test(x=table$方法一,y=table$方法二,var.equal = FALSE)$conf.int

配对样本的估计

t.test(table$试卷A,table$试卷B,paired=TRUE)$conf.int

总体比例的区间估计区间
一个总体比例的估计
大样本的估计方法

> n<-500 #样本个数
> x<-325 #赞成个数
> p<-x/n
> q<-qnorm(0.975)#1-（（1-0.95置信水平）/2）
> LCI<-p-q*sqrt(p*(1-p)/n) #公式
> UCI<-p+q*sqrt(p*(1-p)/n)
> data.frame(LCI,UCI)

> library(Hmisc)
> n<-500
> x<-325
> binconf(x,n,alpha = 0.05,method = "all")
alpha = 1-置信水平**

任意大小样本的估计方法

> n1<-500+4 #n'=n+4
> p1<-(325+2)/n1 #x'=x+2
> q<-qnorm(0.975)
> LCI<-p1-q*sqrt(p1*(1-p1)/n1)
> UCI<-p1+q*sqrt(p1*(1-p1)/n1)
> data.frame(LCI,UCI)

两个总体比例之差的估计
两个大样本的估计方法

> n1<-500+2
> n2<-400+2
> p1<-(225+1)/n1
> p2<-(128+1)/n2
> LCI<-p1-p2-q*sqrt(p1*(1-p1)/n1+p2*(1-p2)/n2)
> UCI<-p1-p2+q*sqrt(p1*(1-p1)/n1+p2*(1-p2)/n2)
> data.frame(LCI,UCI)

总体方差的区间估计
一个总体方差的估计

> library(Hmisc)
> library(TeachingDemos)
> sigma.test(table4_1$重量,conf.level = 0.95)$conf.int

两个总体方差比的估计

> var.test(table$方法一,table$方法二,alternative = "two.sided")$conf.int

一、参数估计原理

用样本统计量去估计总体统计量（样本到整体）
研究方向：准确性&可靠性

1.1点估计

用估计量的取值直接作为总体参数的估计值
缺点：无法说出点估计与总体参数真实值的接近程度，无法看到偏差范围

1.2 区间估计

在点估计的基础上得到总体参数的估计范围，区间通常是由样本量加减估计误差
不同点：接近程度不同给出的概率度量不一样

置信区间：由样本估计量构造出的总体参数在一定置信水平下的估计区间
置信区间是一个随机区间，会因为样本不同而变化
置信水平：x%的区间包含总体参数的真值
样本量确定时，置信区间的宽度随着置信水平的增大而变宽
置信水平相同时，样本量越大，置信区间越窄

二、评量估计量的标准

什么样的估计量算好的估计量？

2.1 无偏性

看样本均值的均值、样本中位数的均值、样本方差的均值！

> x<-vector();
> y<-vector();
> z<-vector();
> n=10
> for (i in 1:10000) {
+ d<-rnorm(n,50,10)
+ x<-append(x,mean(d))
+ y<-append(y,median(d))
+ z<-append(z,var(d))
+ }
> data.frame(mean(x),mean(y),mean(z))

   mean.x.  mean.y.  mean.z.
1 49.98837 49.99946 100.1865

样本均值的均值，样本中位数的均值接近总体均值
样本方差的均值接近总体方差

2.2 有效性

看方差！
利用方差度量估计量与参数的接近程度
估计量的方差越小，估计的越有效

> x<-vector();
> y<-vector();
> n=10
> for(i in 1:10000){
+ d<-rnorm(n)
+ x<-append(x,mean(d))
+ y<-append(y,median(d))}
> data.frame(var(x),var(y))
     var.x.    var.y.
1 0.1037318 0.1433845

样本均值的方差小于样本中位数的方差
样本均值比样本中位数更有效

> x<-vector();
> m<-vector()
> n=10
> for(i in 1:10000){
+ d<-rnorm(n)
+ x<-append(x,mean(d))
+ m<-append(m,median(d))
+ }
> par(mfrow=c(1,2),mai=c(0.7,0.7,0.4,0.2),cex=0.8)
> hist(x,prob=T,col="red",xlim=c(-1.5,1.5),ylim=c(0,1.2),xlab = "样本均值",main="样本均值的分布",cex.main=0.8)
> lines(density(x),col="lightblue",lwd=2)
> hist(y,prob=T,col="red",=c(-1.5,1.5),ylim=c(0,1.2),xlab = "中位数",main="样本中位数的分布",cex.main=0.8)
> lines(density(y),col="lightblue",lwd=2)

请添加图片描述

2.3 一致性

随着样本量的无限增大，统计量收敛于所估计总体的参数
一个大样本得到的估计量更接近总体参数

 set.seed(12)

> n=rnorm(1000,50,10)
> mu=mean(n)
> xbar10<-mean(sample(n,10,replace = F))
> xbar100<-mean(sample(n,100,replace = F))
> xbar500<-mean(sample(n,500,replace = F))
> xbar900<-mean(sample(n,900,replace = F))
> data.frame(总体均值=mu,xbar10,xbar100,xbar500)
  总体均值   xbar10  xbar100  xbar500
1 49.73563 49.17006 50.66988 49.94489

样本量逐渐增大，样本均值越来越接近总体均值

三、总体均值的区间估计

3.1 个总体均值的估计

3.1.1 一个总体均值的估计

请添加图片描述

大样本的估计

样本方差➡️总体方差
请添加图片描述

> z.test(table4_1$耗油量,mu=0,sigma.x=sd(table4_1$耗油量),conf.level=0.9)$conf.int
[1] 7.835887 8.099113
attr(,"conf.level")
[1] 0.9

小样本的估计

确认总体服从正态分布
请添加图片描述

> t.test(table4_1)$conf.int
[1] 101.3748 109.3452
attr(,"conf.level")
[1] 0.95

3.1.2 两个总体均值之差的估计

请添加图片描述

独立大样本的估计

请添加图片描述

> z.test(table$男性工资,table$女性工资,mu=0,sigma.x = sd(table$男性工资),sigma.y = sd(table$女性工资))$conf.int
[1] 1826.052 2212.398
attr(,"conf.level")
[1] 0.95

独立小样本的估计

请添加图片描述

# 方差相同
> table<-read.csv("/Users/zhourui/Documents/example5_4.csv")
> t.test(x=table$方法一,y=table$方法二,var.equal = TRUE)$conf.int
[1] 0.1402936 7.2597064
attr(,"conf.level")
[1] 0.95

#方差不相同
> t.test(x=table$方法一,y=table$方法二,var.equal = FALSE)$conf.int
[1] 0.1384265 7.2615735
attr(,"conf.level")
[1] 0.95

3.3 配对样本的估计

配对：一个样本中的数据与另一个样本中的数据相对应
数据通常是同一个个体所做的前后两次测量

请添加图片描述


> t.test(table$试卷A,table$试卷B,paired=TRUE)$conf.int
[1]  6.327308 15.672692
attr(,"conf.level")
[1] 0.95

3.3 总体比例的区间

请添加图片描述

3.3.1一个总体比例的估计

大样本的估计方法

请添加图片描述

q<-qnorm(0.975)#1-（（1-0.95置信水平）/2）

> n<-500 #样本个数
> x<-325 #赞成个数
> p<-x/n
> q<-qnorm(0.975)#1-（（1-0.95置信水平）/2）
> LCI<-p-q*sqrt(p*(1-p)/n) #公式
> UCI<-p+q*sqrt(p*(1-p)/n)
> data.frame(LCI,UCI)
        LCI       UCI
1 0.6081925 0.6918075

> library(Hmisc)
> n<-500
> x<-325
> binconf(x,n,alpha = 0.05,method = "all")
           PointEst     Lower     Upper
Exact          0.65 0.6064011 0.6918131
Wilson         0.65 0.6071929 0.6905198
Asymptotic     0.65 0.6081925 0.6918075

alpha = 1-置信水平

任意大小样本的估计方法

请添加图片描述

> n1<-500+4 #n'=n+4
> p1<-(325+2)/n1 #x'=x+2
> q<-qnorm(0.975)
> LCI<-p1-q*sqrt(p1*(1-p1)/n1)
> UCI<-p1+q*sqrt(p1*(1-p1)/n1)
> data.frame(LCI,UCI)
        LCI       UCI
1 0.6071358 0.6904833

3.3.2 两个总体比例之差的估计

两个大样本的估计方法

请添加图片描述

> p1<-225/500
> p2<-128/400
> q<-qnorm(0.975)
> LCI<-p1-p2-q*sqrt(p1*(1-p1)/500+p2*(1-p2)/400)
> UCI<-p1-p2+q*sqrt(p1*(1-p1)/500+p2*(1-p2)/400)
> data.frame(LCI,UCI)
         LCI       UCI
1 0.06682346 0.1931765

请添加图片描述

> n1<-500+2
> n2<-400+2
> p1<-(225+1)/n1
> p2<-(128+1)/n2
> LCI<-p1-p2-q*sqrt(p1*(1-p1)/n1+p2*(1-p2)/n2)
> UCI<-p1-p2+q*sqrt(p1*(1-p1)/n1+p2*(1-p2)/n2)
> data.frame(LCI,UCI)
         LCI       UCI
1 0.06624396 0.1923634

3.4 总体方差的区间估计

请添加图片描述

3.4.1 一个总体方差的估计

请添加图片描述

> library(Hmisc)
> library(TeachingDemos)
> sigma.test(table4_1$重量,conf.level = 0.95)$conf.int
[1]  56.82897 180.38811
attr(,"conf.level")
[1] 0.95

3.4.2 两个总体方差比的估计

请添加图片描述

> var.test(table$方法一,table$方法二,alternative = "two.sided")$conf.int
[1] 0.2378836 2.8704428
attr(,"conf.level")
[1] 0.95

hwsnowww

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
R语言 CHAR 05

参数估计文章目录参数估计思维导图一、参数估计原理1.1点估计1.2 区间估计二、评量估计量的标准2.1 无偏性2.1 有效性2.1 一致性三、总体均值的区间估计3.1一个总体均值的估计3.1.1 大样本的估计3.1.2小样本的估计思维导图一、参数估计原理用样本统计量去估计总体统计量（样本到整体）研究方向：准确性&可靠性1.1点估计用估计量的取值直接作为总体参数的估计值缺点：无法说出点估计与总体参数真实值的接近程度，无法看到偏差范围1.2 区间估计在点估计的基础上得到总
复制链接

扫一扫