问题:
linkage disequilibrium (LD)和 pairwise correlation的区别?似乎它们都能达到相同的目的。
先从直觉上理解一下GWAS的原理:
核心就是SNP与表型的关联,对于每一个genome位点,如果某个SNP总是与某疾病同时出现,那我们就可以推测这个SNP极有可能会导致这个疾病。
规范点讲就是看某个SNP在case和control两个population间是否有allel frequency的显著差异。
而现实情况是,我们样本数有限,而且有时候control和case样本不平衡,样本还分男女、人群,而且我们需要对3亿个碱基位点都做统计检验。
我们应该设计哪些指标来评价一个snp与表型的关联呢?
思考:如果一个位点有多个SNP,而只有其中的一个SNP与疾病相关怎么办?
牢记:曼哈顿图中的点代表的不是样品,而是SNP。
思考:曼哈顿图中,显著的SNP并不是鹤立鸡群的冒出来,而是似乎被捧出来的,就像高楼大厦一样,从底下逐步冒出来的。这一座大厦其实就是连锁在一起的SNP,具有很高的LD score。
思考:虽然曼哈顿图里每个点是SNP,但是通常都会把最显著的SNP指向某个基因,因为大家最关注的还是SNP的致病根源,但这样找出来的只有编码区的SNP。
注意:最突出的SNP极有可能不是causal SNP,它只是near the causal SNP。问题就来了,怎么找causal SNP呢?fine mapping
基本背景
什么是SNP?进化过程中随机产生的单点突变,并能稳定的在群体中遗传。
什么是allele frequency in population?每一个genome位点都有两个或多个allele,不同allel之间有明显的频率上的差异,简单点理解就是A和a两个性质的频率,但这里是碱基位点,而不是性状基因。
GWAS分析的前提
sample size足够,学过统计的都知道sample size会影响power,没有足够的power是得不出正确结论的,GWAS通常需要大量的样本,几千是标配,几百就太少,现在有的都达到了几万几十万级别;
一个大误区就是GWAS会测全基因组WGS,其实不是的,那太贵了,大部分是做DNA chip DNA芯片,只包含了常见的10^6个SNP。稍微有钱的就会上WES,就会得到所有编码区的SNP;最有钱的就是WGS了,全部检测,编码非编码,常见罕见,1000genome就是靠这个才NB的。
大致原理已经讲了,其实还有统计原理,暂时略过,先看实操。
怎么用PLINK来做GWAS?油管视频:GWAS in Plink 里面有paper、示例数据、代码下载,可以跑跑熟悉一下。
发表了paper的,GWAS pipeline:A tutorial on conducting genome‐wide association studies: Quality control and statistical analysis。
一下着重讲解一下这个流程的操作细节:
主要是四方面的分析:
- All essential GWAS QC steps along with scripts for data visualization.
- Dealing with population stratification, using 1000 genomes as a reference.
- Association analyses of GWAS data.
- Polygenic risk score (PRS) analyses.
先看下PLINK的文本文件格式:
ped:行是个体,列是表型和SNP的基因型数据;
map:snp的特征数据;
二进制有三个格式:
主要就是把ped拆成了fam和bed,map变成了bim。
通常要做covariate分析,所以还有个covariate文件。
QC:
Step | Command | Function |
---|---|---|
1: Missingness of SNPs and individuals | ‐‐geno | Excludes SNPs that are missing in a large proportion of the subjects. In this step, SNPs with low genotype calls are removed. |
‐‐mind | Excludes individuals who have high rates of genotype missingness. In this step, individual with low genotype calls are removed. | |
2: Sex discrepancy | ‐‐check‐sex | Checks for discrepancies between sex of the individuals recorded in the dataset and their sex based on X chromosome heterozygosity/homozygosity rates. |
3: Minor allele frequency (MAF) | ‐‐maf | Includes only SNPs above the set MAF threshold. |
4: Hardy–Weinberg equilibrium (HWE) | ‐‐hwe | Excludes markers which deviate from Hardy–Weinberg equilibrium. |
5: Heterozygosity | For an example script see https://github.com/MareesAT/GWA_tutorial/ | <