数据处理之卡方检验

题型以及解法:

1.描绘图形,概率密度分布,集中趋势等, ——绘图函数

2.不同基因型在不同人群中是否存在显著差异 ——卡方独立性检验

3.不同变量之间的关联程度   ——多元线性回归分析

4.因变量为二分类变量时(是否,10),想要知道各个自变量影响大小,所占权重多少——Logistic回归分析

5.拟合探索自变量因变量关系 ——局部多项式回归

6.不知道总体分布,或不为正态分布时 ——非参数统计,Wilcoxon符号秩和检验(配对变量):Kruskal-Wallis H检验(多组变量时):

 

 

基础概率密度分布问题

 

dbinom(x, size, prob)#该函数给出了每个点的概率密度分布。

pbinom(x, size, prob)#该函数给出事件的累积概率,它用于表示概率的单个值。

x - 是数字的向量,size -是试验的次数,prob -是每次试验成功的概率

 

 

中心极限定理的验证:

 

对下面三种图进行对比分析和讨论。

#随机抽样 1

png(file = "gds4794-hist-sample1.png")

hist(a[sample(a, 100)], freq = F, breaks = 100)

dev.off()

#重复抽样 100

png(file = "gds4794-hist-sample100.png")

x <- replicate(100, sample(a, size=100, replace = FALSE))

hist(x, freq = F, breaks = 100)

dev.off()

#重复抽样 100, 绘制均值分布图

png(file = "gds4794-hist-sample100-mean.png")

x<-replicate(100, mean(a[sample(a, 100)]))

hist(x, freq = F, breaks = 100)

dev.off()

 

 

计算各种统计指标并绘制统计图:

 

x1<-min(a,na.rm=TRUE) # 计算最小值

x2<-max(a,na.rm=TRUE) # 计算最大值

ave<-mean(a,na.rm=TRUE) # 计算均值

med<-median(a,na.rm=TRUE) # 计算中位数

# 连续分布的众数定义为其分布的密度函数峰值对应的取值

ds=density(a,na.rm=TRUE)

mode <- ds$x[which.max(ds$y)]

quan<-quantile(a,na.rm=TRUE) # 计算四分位数 (0%,25%,50%,75%,100%)

dnorm_png<-png(" ") # 定义图片文档

hist(a, freq = F, breaks = 100) # 绘制频率分布直方图

curve(dnorm(x,mean(a,na.rm=TRUE), sd(a,na.rm=TRUE)), xlim=c(x1,x2),

col="blue", lwd=3, add=TRUE) # 绘制概率分布曲线

abline(v=ave,lty=3,lwd=3,col="red") # 增加均值线

abline(v=med,lty=3,lwd=3,col="purple") # 增加中位数线

abline(v=mode,lty=3,lwd=3,col="green") # 增加众数线

abline(v=quan,lty=3,lwd=3,col="blue") # 增加四分位数线

dev.off() # 保存图片文档

 

 

 

分类数据分析:

 

Kappa一致性的测量:(是测量不是检验,需要加载vcd库)

kappa计算结果为-1~1,但通常kappa是落在

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值