GWAs——全基因组关联分析流程

原创

已于 2022-11-06 18:14:36 修改 · 9.5k 阅读

40 ·

CC 4.0 BY-SA版权

文章标签：

#经验分享

于 2022-09-19 20:35:57 首次发布

GWAs是遗传学研究的重要工具，涉及质控、统计分析、统计学检验和下游分析等多个步骤。质控包括控制检出率、性别一致性、MAF、HWE、杂合率、样本关系和群体分层。统计分析包括针对数量性和分类性状的关联分析。统计学检验如Bonferroni修正和Benjamini & Hochberg方法用于多重检验。下游分析涵盖PRS计算、基因功能验证及TWAs和eQTL研究。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

GWAs（Genome Wide Association studies，全基因组关联分析），即通过对群体的SNPs数据（genetic marker）和表型间的关联分析，目前常用于遗传病学研究、基因功能验证、目的基因筛选等方面的研究。GWAs分析总体流程较为复杂，包括诸多数据准备和过滤工作，其大体流程（不包括二进制文件的转化）如下。

一、质控质检

1、控制检出率

在最初的二进制文件中，存在着缺失SNPs数据的个体和缺失个体数据的SNPs，在进行分析之前需要去除这些数据。这一过程称为控制检出率（Calling Rate or Missingness）。

2、剔除性别不一致

在二进制数据中，个体的性别信息存在表型~基因型的冲突（Sex Discrepancy），即在基因型数据中表现为一性别，而在表型中记录为另一性别。为了实验结果的准确性，需剔除或修正（根据基因型）数据。

3、剔除低MAF数据

次等位基因（Minor Allele，MA），即在给定的群体中，其基因频率第二高的基因，其出现的频率即为次等位基因频率（Minor Allele Frequency， MAF）。次等位基因在群体中出现的频率较少，较难发现，但是对于变异（常见变异和特殊变异）的研究却极为重要，而过低MAF又会影响分析结果。