GWAS | 原理和流程 | 全基因组关联分析 | Linkage disequilibrium (LD)连锁不平衡 | 曼哈顿图 Manhattan_plot | QQ_plot |...

最新推荐文章于 2022-09-15 14:38:42 发布

weixin_30497527

最新推荐文章于 2022-09-15 14:38:42 发布

阅读量8.3k

点赞数 20

文章标签：人工智能 r语言数据结构与算法

原文链接：http://www.cnblogs.com/leezx/p/9013615.html

版权

GWAS（全基因组关联分析）是一种寻找SNP与疾病关联的方法。通过分析SNP在case和control群体间的频率差异，寻找可能导致疾病的遗传标记。文章介绍了GWAS的基本概念、使用PLINK工具进行分析的步骤、SNP过滤问题以及连锁不平衡（LD）的概念。曼哈顿图和QQ图是GWAS中重要的可视化工具，用于评估结果。此外，文章还提到了GWAS后的精细映射（fine mapping）用于确定因果SNP的重要性。

摘要由CSDN通过智能技术生成

问题：

linkage disequilibrium (LD)和 pairwise correlation的区别？似乎它们都能达到相同的目的。

先从直觉上理解一下GWAS的原理：

核心就是SNP与表型的关联，对于每一个genome位点，如果某个SNP总是与某疾病同时出现，那我们就可以推测这个SNP极有可能会导致这个疾病。

规范点讲就是看某个SNP在case和control两个population间是否有allel frequency的显著差异。

而现实情况是，我们样本数有限，而且有时候control和case样本不平衡，样本还分男女、人群，而且我们需要对3亿个碱基位点都做统计检验。

我们应该设计哪些指标来评价一个snp与表型的关联呢？

思考：如果一个位点有多个SNP，而只有其中的一个SNP与疾病相关怎么办？

牢记：曼哈顿图中的点代表的不是样品，而是SNP。

思考：曼哈顿图中，显著的SNP并不是鹤立鸡群的冒出来，而是似乎被捧出来的，就像高楼大厦一样，从底下逐步冒出来的。这一座大厦其实就是连锁在一起的SNP，具有很高的LD score。

思考：虽然曼哈顿图里每个点是SNP，但是通常都会把最显著的SNP指向某个基因，因为大家最关注的还是SNP的致病根源，但这样找出来的只有编码区的SNP。

注意：最突出的SNP极有可能不是causal SNP，它只是near the causal SNP。问题就来了，怎么找causal SNP呢？fine mapping

基本背景

什么是SNP？进化过程中随机产生的单点突变，并能稳定的在群体中遗传。

什么是allele frequency in population？每一个genome位点都有两个或多个allele，不同allel之间有明显的频率上的差异，简单点理解就是A和a两个性质的频率，但这里是碱基位点，而不是性状基因。

GWAS分析的前提

sample size足够，学过统计的都知道sample size会影响power，没有足够的power是得不出正确结论的，GWAS通常需要大量的样本，几千是标配，几百就太少，现在有的都达到了几万几十万级别；

一个大误区就是GWAS会测全基因组WGS，其实不是的，那太贵了，大部分是做DNA chip DNA芯片，只包含了常见的10^6个SNP。稍微有钱的就会上WES，就会得到所有编码区的SNP；最有钱的就是WGS了，全部检测，编码非编码，常见罕见，1000genome就是靠这个才NB的。

大致原理已经讲了，其实还有统计原理，暂时略过，先看实操。

怎么用PLINK来做GWAS？油管视频：GWAS in Plink 里面有paper、示例数据、代码下载，可以跑跑熟悉一下。

发表了paper的，GWAS pipeline：A tutorial on conducting genome‐wide association studies: Quality control and statistical analysis。

github地址

一下着重讲解一下这个流程的操作细节：

主要是四方面的分析：

All essential GWAS QC steps along with scripts for data visualization.
Dealing with population stratification, using 1000 genomes as a reference.
Association analyses of GWAS data.
Polygenic risk score (PRS) analyses.

先看下PLINK的文本文件格式：

ped：行是个体，列是表型和SNP的基因型数据；

map：snp的特征数据；

二进制有三个格式：

主要就是把ped拆成了fam和bed，map变成了bim。

通常要做covariate分析，所以还有个covariate文件。

QC：

Step	Command	Function
1: Missingness of SNPs and individuals	‐‐geno	Excludes SNPs that are missing in a large proportion of the subjects. In this step, SNPs with low genotype calls are removed.
1: Missingness of SNPs and individuals	‐‐mind	Excludes individuals who have high rates of genotype missingness. In this step, individual with low genotype calls are removed.
2: Sex discrepancy	‐‐check‐sex	Checks for discrepancies between sex of the individuals recorded in the dataset and their sex based on X chromosome heterozygosity/homozygosity rates.
3: Minor allele frequency (MAF)	‐‐maf	Includes only SNPs above the set MAF threshold.
4: Hardy–Weinberg equilibrium (HWE)	‐‐hwe	Excludes markers which deviate from Hardy–Weinberg equilibrium.
5: Heterozygosity	For an example script see https://github.com/MareesAT/GWA_tutorial/