GWAs——全基因组关联分析流程

GWAs是遗传学研究的重要工具,涉及质控、统计分析、统计学检验和下游分析等多个步骤。质控包括控制检出率、性别一致性、MAF、HWE、杂合率、样本关系和群体分层。统计分析包括针对数量性和分类性状的关联分析。统计学检验如Bonferroni修正和Benjamini & Hochberg方法用于多重检验。下游分析涵盖PRS计算、基因功能验证及TWAs和eQTL研究。
摘要由CSDN通过智能技术生成

GWAs(Genome Wide Association studies,全基因组关联分析),即通过对群体的SNPs数据(genetic marker)和表型间的关联分析,目前常用于遗传病学研究、基因功能验证、目的基因筛选等方面的研究。GWAs分析总体流程较为复杂,包括诸多数据准备和过滤工作,其大体流程(不包括二进制文件的转化)如下。

一、质控质检

1、控制检出率

在最初的二进制文件中,存在着缺失SNPs数据的个体和缺失个体数据的SNPs,在进行分析之前需要去除这些数据。这一过程称为控制检出率(Calling Rate or Missingness)。

2、剔除性别不一致

在二进制数据中,个体的性别信息存在表型~基因型的冲突(Sex Discrepancy),即在基因型数据中表现为一性别,而在表型中记录为另一性别。为了实验结果的准确性,需剔除或修正(根据基因型)数据。

3、剔除低MAF数据

次等位基因(Minor Allele,MA),即在给定的群体中,其基因频率第二高的基因,其出现的频率即为次等位基因频率(Minor Allele Frequency, MAF)。次等位基因在群体中出现的频率较少,较难发现,但是对于变异(常见变异和特殊变异)的研究却极为重要,而过低MAF又会影响分析结果。

4、去除反HWE项

哈达——温伯格平衡(Hardy–Weinberg equilibrium, HWE)认为,在一个无限大的种群中,个体完全随机交配,没有选择和基因流存在,那么这个种群中的基因频率将会保持平衡。在GWAs中,违反HWE会使分析结果偏离预期,而我们通常将HWE偏差的发生归咎于基因型的错误。所以,在进行分析之前剔除离群值是必须的,而为了能有效的发现变异位点,我们又需要放宽过滤的阈值。

5、控制杂合率

杂合率(Heterozygosity Rates),即样本中杂合子基因型占所

  • 20
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Odd_guy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值