题型以及解法:
1.描绘图形,概率密度分布,集中趋势等, ——绘图函数
2.不同基因型在不同人群中是否存在显著差异 ——卡方独立性检验
3.不同变量之间的关联程度 ——多元线性回归分析
4.因变量为二分类变量时(是否,10),想要知道各个自变量影响大小,所占权重多少——Logistic回归分析
5.拟合探索自变量因变量关系 ——局部多项式回归
6.不知道总体分布,或不为正态分布时 ——非参数统计,Wilcoxon符号秩和检验(配对变量):Kruskal-Wallis H检验(多组变量时):
基础概率密度分布问题
dbinom(x, size, prob)#该函数给出了每个点的概率密度分布。
pbinom(x, size, prob)#该函数给出事件的累积概率,它用于表示概率的单个值。
x - 是数字的向量,size -是试验的次数,prob -是每次试验成功的概率
中心极限定理的验证:
对下面三种图进行对比分析和讨论。
#随机抽样 1 次
png(file = "gds4794-hist-sample1.png")
hist(a[sample(a, 100)], freq = F, breaks = 100)
dev.off()
#重复抽样 100次
png(file = "gds4794-hist-sample100.png")
x <- replicate(100, sample(a, size=100, replace = FALSE))
hist(x, freq = F, breaks = 100)
dev.off()
#重复抽样 100次, 绘制均值分布图
png(file = "gds4794-hist-sample100-mean.png")
x<-replicate(100, mean(a[sample(a, 100)]))
hist(x, freq = F, breaks = 100)
dev.off()
计算各种统计指标并绘制统计图:
x1<-min(a,na.rm=TRUE) # 计算最小值
x2<-max(a,na.rm=TRUE) # 计算最大值
ave<-mean(a,na.rm=TRUE) # 计算均值
med<-median(a,na.rm=TRUE) # 计算中位数
# 连续分布的众数定义为其分布的密度函数峰值对应的取值
ds=density(a,na.rm=TRUE)
mode <- ds$x[which.max(ds$y)]
quan<-quantile(a,na.rm=TRUE) # 计算四分位数 (0%,25%,50%,75%,100%)
dnorm_png<-png(" ") # 定义图片文档
hist(a, freq = F, breaks = 100) # 绘制频率分布直方图
curve(dnorm(x,mean(a,na.rm=TRUE), sd(a,na.rm=TRUE)), xlim=c(x1,x2),
col="blue", lwd=3, add=TRUE) # 绘制概率分布曲线
abline(v=ave,lty=3,lwd=3,col="red") # 增加均值线
abline(v=med,lty=3,lwd=3,col="purple") # 增加中位数线
abline(v=mode,lty=3,lwd=3,col="green") # 增加众数线
abline(v=quan,lty=3,lwd=3,col="blue") # 增加四分位数线
dev.off() # 保存图片文档
分类数据分析:
Kappa一致性的测量:(是测量不是检验,需要加载vcd库)
kappa计算结果为-1~1,但通常kappa是落在