GWAS | 原理和流程 | 全基因组关联分析 | Linkage disequilibrium (LD)连锁不平衡 | 曼哈顿图 Manhattan_plot | QQ_plot |...

GWAS(全基因组关联分析)是一种寻找SNP与疾病关联的方法。通过分析SNP在case和control群体间的频率差异,寻找可能导致疾病的遗传标记。文章介绍了GWAS的基本概念、使用PLINK工具进行分析的步骤、SNP过滤问题以及连锁不平衡(LD)的概念。曼哈顿图和QQ图是GWAS中重要的可视化工具,用于评估结果。此外,文章还提到了GWAS后的精细映射(fine mapping)用于确定因果SNP的重要性。
摘要由CSDN通过智能技术生成

问题:

linkage disequilibrium (LD)和 pairwise correlation的区别?似乎它们都能达到相同的目的。

 

先从直觉上理解一下GWAS的原理:

核心就是SNP与表型的关联,对于每一个genome位点,如果某个SNP总是与某疾病同时出现,那我们就可以推测这个SNP极有可能会导致这个疾病。

规范点讲就是看某个SNP在case和control两个population间是否有allel frequency的显著差异。

而现实情况是,我们样本数有限,而且有时候control和case样本不平衡,样本还分男女、人群,而且我们需要对3亿个碱基位点都做统计检验。

我们应该设计哪些指标来评价一个snp与表型的关联呢?

思考:如果一个位点有多个SNP,而只有其中的一个SNP与疾病相关怎么办?

牢记:曼哈顿图中的点代表的不是样品,而是SNP。

思考:曼哈顿图中,显著的SNP并不是鹤立鸡群的冒出来,而是似乎被捧出来的,就像高楼大厦一样,从底下逐步冒出来的。这一座大厦其实就是连锁在一起的SNP,具有很高的LD score。

思考:虽然曼哈顿图里每个点是SNP,但是通常都会把最显著的SNP指向某个基因,因为大家最关注的还是SNP的致病根源,但这样找出来的只有编码区的SNP。

注意:最突出的SNP极有可能不是causal SNP,它只是near the causal SNP。问题就来了,怎么找causal SNP呢?fine mapping

 

基本背景

什么是SNP?进化过程中随机产生的单点突变,并能稳定的在群体中遗传。

什么是allele frequency in population?每一个genome位点都有两个或多个allele,不同allel之间有明显的频率上的差异,简单点理解就是A和a两个性质的频率,但这里是碱基位点,而不是性状基因。

 

GWAS分析的前提

sample size足够,学过统计的都知道sample size会影响power,没有足够的power是得不出正确结论的,GWAS通常需要大量的样本,几千是标配,几百就太少,现在有的都达到了几万几十万级别;

一个大误区就是GWAS会测全基因组WGS,其实不是的,那太贵了,大部分是做DNA chip DNA芯片,只包含了常见的10^6个SNP。稍微有钱的就会上WES,就会得到所有编码区的SNP;最有钱的就是WGS了,全部检测,编码非编码,常见罕见,1000genome就是靠这个才NB的。

 

大致原理已经讲了,其实还有统计原理,暂时略过,先看实操。

怎么用PLINK来做GWAS?油管视频:GWAS in Plink 里面有paper、示例数据、代码下载,可以跑跑熟悉一下。


发表了paper的,GWAS pipeline:A tutorial on conducting genome‐wide association studies: Quality control and statistical analysis

github地址

一下着重讲解一下这个流程的操作细节:

主要是四方面的分析:

  1. All essential GWAS QC steps along with scripts for data visualization.
  2. Dealing with population stratification, using 1000 genomes as a reference.
  3. Association analyses of GWAS data.
  4. Polygenic risk score (PRS) analyses.

先看下PLINK的文本文件格式:

ped:行是个体,列是表型和SNP的基因型数据;

map:snp的特征数据;

二进制有三个格式:

主要就是把ped拆成了fam和bed,map变成了bim。

通常要做covariate分析,所以还有个covariate文件。

QC:

<
Step Command Function
1: Missingness of SNPs and individuals ‐‐geno Excludes SNPs that are missing in a large proportion of the subjects. In this step, SNPs with low genotype calls are removed.
‐‐mind Excludes individuals who have high rates of genotype missingness. In this step, individual with low genotype calls are removed.
2: Sex discrepancy ‐‐check‐sex Checks for discrepancies between sex of the individuals recorded in the dataset and their sex based on X chromosome heterozygosity/homozygosity rates.
3: Minor allele frequency (MAF) ‐‐maf Includes only SNPs above the set MAF threshold.
4: Hardy–Weinberg equilibrium (HWE) ‐‐hwe Excludes markers which deviate from Hardy–Weinberg equilibrium.
5: Heterozygosity For an example script see https://github.com/MareesAT/GWA_tutorial/
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值