为了更好全面的展示分析步骤,下面展示的是R全代码和分析的具体顺序步骤(三个例子)
要是有困惑的,可以把代码输入Chatgpt查看详细解析:【资源共享】分享3个免费ChatGPT国内AI软件,请及时收藏!-CSDN博客
#1, data0205 cd4 是一组艾滋病人的 CD4 细胞水平,采用合适的统计方法(说明选用依据),检验艾滋病人的 CD4 细胞水平是否小于 400。
##################################分析
#数据量n=10,小于13,选择“符号检验”和“wilcox秩和检验”方法
##################################方法一:符号检验
#############步骤一:提出假设
#零假设(H0):艾滋病患者的CD4细胞水平小于400。
#备择假设(H1):艾滋病患者的CD4细胞水平大于等于400。
#############步骤二:计算统计量
library(haven) # haven包读取sav格式文件
data <- read_sav("D:/Datum/生物统计/data/data0205 cd4.sav")
data
# 设置显著性水平(通常使用0.05)
alpha <- 0.05
#符号检验
binom.test(min(sum(data$cd4>400),sum(data$cd4<400)), length(data$cd4),
alternative="less", #单边的,alternative = "less" 表示我们关心的是小于400的观测值的数量
conf.level = 0.95) #默认0.05,可以不加
###代码说明
#binom.test(x, n, p = 0.5,alternative = c("two.sided", "less", "greater"),conf.level = 0.95)
#其中x是成功的次数;或是一个由成功数和失败数组成的二维向量。
#n是试验总数,当x是二维向量时,此值无效。
#P是原假设的概率。
#alternative = c("two.sided", "less", "greater"),
#############步骤三:做出决策
#上述输出为:p-value=0.0.1719
#p-value大于显著性水平0.05,表明在显著性水平0.05下,CD4细胞水平小于400的证据是显著的。
##################################方法二:wilcox秩和检验
#############步骤一
#零假设(H0):艾滋病患者的CD4细胞水平小于400。
#备择假设(H1):艾滋病患者的CD4细胞水平大于等于400。
#############步骤二:计算统计量
library(haven) # haven包读取sav格式文件
data <- read_sav("D:/Datum/生物统计/data/data0205 cd4.sav")
data
# A tibble: 10 × 2 ID cd4 <dbl> <dbl> 1 1 269 2 2 432 3 3 390 4 4 369 5 5 395 6 6 288 7 7 323 8 8 347 9 9 581 10 10 499# wilcox秩和检验
wilcox.test(data$cd4, mu = 400, alternative = "less")
#############步骤三:做出决策
#上述输出为:p-value=0.2783
#p-value大于显著性水平0.05,表明在显著性水平0.05下,CD4细胞水平小于400的证据是显著的。
#data0206 protein 是某种灵长类动物栖息地内几种植物的叶片蛋白质干重比例,采用合适的统计方法(说明选用依据),检验是否与 15%差异。该物种栖息地内所有种类植物叶片蛋白质干重比例的 99%置信区间是多少?
##################################分析
#数据量n=50,选择“t检验”方法
##################################方法:t检验
#############步骤一:提出假设
#零假设(H0):该植物叶片蛋白质干重比例等于 15%
#备择假设(H1):该比例不等于 15%。
#############步骤二:计算统计量
library(haven) # haven包读取sav格式文件
data2 <- read_sav("D:/Datum/生物统计/data/data0206-protein.sav")
data2
# A tibble: 50 × 2 species protein <dbl> <dbl> 1 1 15.7 2 2 13.7 3 3 18.8 4 4 25.6 5 5 13.9 6 6 16.2 7 7 11.8 8 8 16.1 9 9 12.5 10 10 11.5 # ℹ 40 more rows # ℹ Use `print(n = ...)` to see more rows#判断样本是否正态
shapiro.test(data2$protein)
# 假设检验和置信区间
result2=t.test(data2$protein,
mu = 15, #单样本检验时,需要设定的平均值。
alternative = c("two.sided"), #该参数设定备择假设,默认为双尾检验。
conf.level = 0.95) #显著水平0.05
###代码解释
#t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"),mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95, ...)
#paired:为逻辑参数,是否进行配对t-test。
#var.equal:双样本检验时,总体方差是否相等
#conf.level:设定显著性水平,默认α=0.05。
#############步骤三:做出决策
result2$p.value
#上述输出为:p-value=0.5438
#p-value大于显著性水平0.05,表明在显著性水平0.05下,该植物叶片蛋白质干重比例等于 15%。
# 假设检验和99%置信区间
result3 <- t.test(data$protein, mu = 15, conf.level = 0.99)
print(result3$conf.int)
#输出为13.12389 17.98491,
#则该物种栖息地内所有种类植物叶片蛋白质干重比例的 99%置信区间是(13.12389,17.98491)