单样本均值比较（One Sample Average）

码农耕地人~go

已于 2023-11-13 00:00:53 修改

阅读量181

点赞数 3

分类专栏：生物统计学文章标签：开发语言

于 2023-11-12 23:26:17 首次发布

本文链接：https://blog.csdn.net/m0_61164319/article/details/134367719

版权

生物统计学专栏收录该内容

4 篇文章 0 订阅

订阅专栏

为了更好全面的展示分析步骤，下面展示的是R全代码和分析的具体顺序步骤（三个例子）

要是有困惑的，可以把代码输入Chatgpt查看详细解析：【资源共享】分享3个免费ChatGPT国内AI软件，请及时收藏！-CSDN博客

#1, data0205 cd4 是一组艾滋病人的 CD4 细胞水平，采用合适的统计方法（说明选用依据），检验艾滋病人的 CD4 细胞水平是否小于 400。

##################################分析

#数据量n=10，小于13，选择“符号检验”和“wilcox秩和检验”方法

##################################方法一：符号检验

#############步骤一:提出假设

#零假设（H0）：艾滋病患者的CD4细胞水平小于400。

#备择假设（H1）：艾滋病患者的CD4细胞水平大于等于400。

#############步骤二：计算统计量

library(haven)   # haven包读取sav格式文件

data <- read_sav("D:/Datum/生物统计/data/data0205 cd4.sav")

data

# 设置显著性水平（通常使用0.05）

alpha <- 0.05

#符号检验

binom.test(min(sum(data$cd4>400),sum(data$cd4<400)), length(data$cd4),

           alternative="less", #单边的，alternative = "less" 表示我们关心的是小于400的观测值的数量

           conf.level = 0.95)   #默认0.05，可以不加

###代码说明

#binom.test(x, n, p = 0.5,alternative = c("two.sided", "less", "greater"),conf.level = 0.95)

#其中x是成功的次数；或是一个由成功数和失败数组成的二维向量。

#n是试验总数，当x是二维向量时，此值无效。

#P是原假设的概率。

#alternative = c("two.sided", "less", "greater"),

#############步骤三：做出决策

#上述输出为：p-value=0.0.1719

#p-value大于显著性水平0.05，表明在显著性水平0.05下，CD4细胞水平小于400的证据是显著的。

##################################方法二：wilcox秩和检验

#############步骤一

#零假设（H0）：艾滋病患者的CD4细胞水平小于400。

#备择假设（H1）：艾滋病患者的CD4细胞水平大于等于400。

#############步骤二：计算统计量

library(haven)   # haven包读取sav格式文件

data <- read_sav("D:/Datum/生物统计/data/data0205 cd4.sav")

data
# A tibble: 10 × 2
      ID   cd4
   <dbl> <dbl>
 1     1   269
 2     2   432
 3     3   390
 4     4   369
 5     5   395
 6     6   288
 7     7   323
 8     8   347
 9     9   581
10    10   499
# wilcox秩和检验

wilcox.test(data$cd4, mu = 400, alternative = "less")

#############步骤三：做出决策

#上述输出为：p-value=0.2783

#p-value大于显著性水平0.05，表明在显著性水平0.05下，CD4细胞水平小于400的证据是显著的。

#data0206 protein 是某种灵长类动物栖息地内几种植物的叶片蛋白质干重比例，采用合适的统计方法（说明选用依据），检验是否与 15%差异。该物种栖息地内所有种类植物叶片蛋白质干重比例的 99%置信区间是多少？

##################################分析

#数据量n=50，选择“t检验”方法

##################################方法：t检验

#############步骤一:提出假设

#零假设（H0）:该植物叶片蛋白质干重比例等于 15%

#备择假设（H1）:该比例不等于 15%。

#############步骤二：计算统计量

library(haven) # haven包读取sav格式文件

data2 <- read_sav("D:/Datum/生物统计/data/data0206-protein.sav")

data2
# A tibble: 50 × 2
   species protein
     <dbl>   <dbl>
 1       1    15.7
 2       2    13.7
 3       3    18.8
 4       4    25.6
 5       5    13.9
 6       6    16.2
 7       7    11.8
 8       8    16.1
 9       9    12.5
10      10    11.5
# ℹ 40 more rows
# ℹ Use `print(n = ...)` to see more rows
#判断样本是否正态

shapiro.test(data2$protein)

# 假设检验和置信区间

result2=t.test(data2$protein,

               mu = 15,   #单样本检验时，需要设定的平均值。

               alternative = c("two.sided"), #该参数设定备择假设，默认为双尾检验。

               conf.level = 0.95)    #显著水平0.05

###代码解释

#t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"),mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95, ...)

#paired：为逻辑参数，是否进行配对t-test。

#var.equal：双样本检验时，总体方差是否相等

#conf.level：设定显著性水平，默认α=0.05。

#############步骤三：做出决策

result2$p.value

#上述输出为：p-value=0.5438

#p-value大于显著性水平0.05，表明在显著性水平0.05下，该植物叶片蛋白质干重比例等于 15%。

# 假设检验和99%置信区间

result3 <- t.test(data$protein, mu = 15, conf.level = 0.99)

print(result3$conf.int)

#输出为13.12389 17.98491，

#则该物种栖息地内所有种类植物叶片蛋白质干重比例的 99%置信区间是(13.12389,17.98491)