参考文献
曾平, 赵杨, 陈峰. 新一代测序数据的罕见遗传变异关联性统计方法[J]. 中国卫生统计, 2015, 32(006):1091-1096.
官方指南
https://cran.r-project.org/web/packages/SKAT/SKAT.pdf https://CRAN.R-project.org/package=SKAT
首先,打开R-Studio,安装“SKAT”包
install.packages("SKAT")
获取包的用法
??SKAT
从描述文件可以看到版本号
SKAT的两个功能:
计算SNP与表型的关系
计算功效或样本量
先来看一下关联分析的做法
示例数据集“SKAT.example”是一个矩阵(Z),包括2000例样本的67个SNP信息,连续(y.c)或二分类(y.b)的表型向量,和一个协变量矩阵(X)。
> library(Matrix)> library(SPAtest)> library(SKAT) #加载包> data(SKAT.example)#加载示例数据> summary(SKAT.example) #查看数据类型 Length Class Mode Z 134000 -none- numericX 4000 -none- numericy.c 2000 -none- numericy.b 2000 -none- numeric> names(SKAT.example)[1] "Z" "X" "y.c" "y.b"> attach(SKAT.example)
为了进行关联分析,在运行SKAT之前,应该先运行 SKAT_Null_Model函数来估计H0假设(即一组罕见变异和疾病之间无关联,等价于随机效应的方差成分为0)下的模型参数。
对于连续型变量的表型变量> obj> SKAT(Z, obj)$p.value[1] 0.002877041 #这是P值,小于0.05,拒绝H0假设
对于二分类变量的表型变量> obj> SKAT(Z, obj)$p.value[1] 0.1401991 #这里,P值大于0.05,接受上面的H0假设。可以看出,对于二分类变量,计算结果是相对保守的。
当表型为二分类变量,且样本量小于2000时,SKAT的计算结果是保守的。研究者设计moment matching adjustment (MA)方法通过估计经验方差和峰度来调整渐近零分布。接下来,为了示例,抽出200例样本运行SKAT.
> IDX> obj.sSample size (non-missing y and X) = 200, which is <