PLINK/seq可以检测表型-表型之间的相关性,用permutation或者asymptotic statistics。可以基于单变异,基因,也可以基于gene sets。
single variant association
检测一个变异和疾病(dichotomous outcome)的相关性:
pseq proj v-assoc --phenotype my.phenotype
当对于单个VCF文件,可以不用创建项目。在例子中,–phenotype含有2个参数:文件名和表型label:
pseq data.vcf.gz v-assoc --phenotype phenotype.txt my.phenotype
Default情况下,v-assoc
用Fisher’s exact test做等位基因的,显性的和隐性的单突变检验。但是,要基于特定次数permutation来计算empirical significance values
,要加上:
--perm 10000
若用适应性的permutations:
--perm -1
具体输出详见下图:
Linear and logistic regression tests
依然基于单个突变,用logistic regression,可用glm
:
pseq proj glm --phenotype phe1 --covar mds1 mds2
这类检验会基于表型(定量表型或者二分表型)。目前仅asymptotic p-values可用。对于罕见突变,这个分析的power较低,甚至可能不可行(一个mask option比如maf=0.02要在跑相关性分析前筛一下。)
Gene/group-based association tests
做set-based association(set可用为gene, pathway, or other entity):
pseq proj assoc --phenotype my.phenotype --msk loc.group=refseq
assoc
命令目前假定一个二分的表型,在default下,这个命令用adaptive permutation。如果要用固定的permutation数,则要加:
--perm 10000
其他筛选可以基于mask
功能来实现,这里grouping factor必须用--refseq
(包含在LOCDB里)。特定的,如果着眼于罕见突变,可以用mask
来筛选minor allele count or frequency:
pseq proj assoc --phenotype phe1 --mask loc.group=refseq mac=2-20
其中,NVAR
表示突变数目。Default下,是基于burden test的case-control minor alleles的比较。P
值基于permutation,经验显著性(empirical significance)。I
列表示proportion of null replicates for which the best test statistic was tied. 这是一种测量统计上经验分布分离性的方法,可以有效给出一个可能的最小经验P-value。比如一个基因仅有一个突变,且这个突变在case和control里出现次数一样,那么I=0.5。过滤掉过高的I可以使得P值的分布更加合理。这个和GWAS里去除低minor allele frequencies (eg. < 1%)是差不多的。
PSEQ有一系列的gene-based的方法。
Ouput label | Statistic | –options | Directionality |
---|---|---|---|
BURDEN | Excess of rare alleles in cases compard to controls | no-burden (tests included by default, use to remove)d | 1-sided |
UNIQ | Count of case-unique rare alleles | uniq | 1-sided |
VT | variable threshold test | vt | 1-sided |
FQRWGT | Frequency-weighted test, in spirit of Madsen-Bowning | fw | 1-sided |
CALPHA | C-alpha test | calpha | 2-sided |
SUMSTAT | sum of single-site statistics | sumstat | 2-sided |
对于BURDEN test,DESC
域包含 case/control nimor alleles的数目。对UNIQ
,包含在case/control里case-only non-reference alleles的数目。在C-alpha
里,frequency breakdown,意思是哪些有特殊case/control count的minor allele的突变数目。
另外还有一些检验,比如step-up test, CMC test, KBAC test。
Permutation
绝大部分相关性检验基于permutation去得到empirical p-values。
维持tests之间的correlation:对于每一个检验的个体(variant, gene, pathway),一个一致的set的permutation会执行。因此,这会保留test statistic的correlation的pattern。
分层的permutation:如果INDDB
提供了一个合适的factor,可以执行分层permutation:
–strata batch
Adaptive permutations: 对于每个检验对应的permutation的次数可以被指定:
–perm 10000
Permutation and missing data: default下,permutation是不管missing genotype data的(default下,任何有missing genotype的个体都会在做相关性分析之前被去除)。如果要用那些对于某个variant(或者a group of variants or gene-based tests)没有missing genotype data的个体,可以加参数如下:
–options fix-null
具体参考官网