gwas snp 和_一篇手把手教你做GWAS的Guideline文献解读

本文提供了一份全基因组关联研究(GWAS)的详细指南,涵盖数据质控、群体结构分层和关联分析。讨论了SNP数据的准备、遗传数据质控的重要性,如SNP缺失、性别一致性、MAF和HWE平衡等问题。还介绍了统计模型的选择,如二元和数量性状的关联分析,以及多基因风险评分(PRS)的计算和预测分析。GWAS的质量控制和统计方法对于确保研究结果的准确性和可靠性至关重要。
摘要由CSDN通过智能技术生成

A tutorial on conducting genome‐wide association studies : Quality control and statistical analysis

Introduction

准备软件

1.数据格式准备

2. PLINK的基础使用命令

3. 遗传数据的质控

3.1 使用HapMap数据进行数据模拟

3.2 数据质量控制步骤概览

4. 群体结构分层

5. 关联分析

5.1 二元结果测量

5.2 数量性状

5.3 多重检验校正

6. PRS分析

6.1 计算PRS

6.2 进行多基因风险预测分析

7. 总结

A tutorial on conducting genome‐wide association studies : Quality control and statistical analysis

最近在深入学习全基因组关联分析,本篇文献是一份很基础的GWAS GuideLine,每位想入门GWAS的朋友,可以首先看看这篇手把手教GWAS的文献。(强烈建议大家阅读文献的英文原文,并跑跑作者的代码!)

Introduction

本篇文章主要是提供一份guideline来帮助大家进行GWAS相关的数据分析。

GWAS研究的目的是--识别等位基因频率随表型的变化而系统变化中的单核苷酸多态性(SNP) 【例如精神分裂症人群和健康人群之间的病例对照等等】。 识别与表型相关联的SNP可以为揭示造成不同表型的生物学机制提供新的思路。得益于技术的进步,现在我们可以全面的调查分布在整个基因组中的snp对生物体的影响

目前,GWAS方法在探究snp对精神病症的影响方面已经有很多成功的例子,例如:精神分裂症,精神紊乱等等。这些所提到的GWAS研究,在很大的程度上依赖于我们对人类基因组遗传结构的深度了解,这些对人类基因组遗传知识来源于HapMap计划((NCBI Gibbs et al., 2003)和千人基因组计划(1000 genomes, http://www.1000genomes.org/)。HapMap计划描述了常见的snp人类DNA序列中的模式。千人基因组计划则是对常见的snp和稀少的snp在基因组水平上绘制map图

由于单个个体snp对整个GWAS结果的影响还是比较小,所以精神病领域的研究者们开发了整合snp效果的方法模型来提高GWAS结果的准确性。本篇文章中我们会主要聚焦多基因风险评分(polygenic risk score, PRS)分析。PRS方法将多个SNP的效应整合在一起,来对疾病进行预测和评分

。。。 暂时省略

本篇文章是一份Guidline,为哪些没有遗传背景,但是想将遗传学方法应用在自己研究领域的研究者提供帮助。

文章的主体纲要如下:

首先,我们会展示如何对基因型数据进行严格的质量控制,以保证后续GWAS的成功进行。这一部分内容我们还会讨论如何选用合适的方法来处理不同种族之间的异质性所引起的问题。

第二,我们会介绍常见的用于关联SNP和表型性状的统计模型,并阐述如何控制潜在的干扰因子。

第三,我们会展示如何进行一个多基因风险评分分析

需要注意的是,我们这篇文章没有写如何进行基因型填充,所以对基因型填充有需要的同学,可以看看文章 van Leeuwen and colleagues (2015). 本文所有的代码都存放在Github上 MareesAT/GWA_tutorial 。

准备软件

  • PLINK(Version 1.09) ,下载地址:https://www.cog‐genomics.org/plink/1.9/.
  • R语言
  • Linux环境
  • 其它处理SNP数据的软件推荐:Genabel,SNPTEST

1.数据格式准备

因为我们主要是用PLINK来完成GWAS分析,所以我们需要认真了解一下输入PLINK软件的数据格式。

对于PLINK来说,它既可以处理文本格式的文件,也可以处理二进制格式的文件。但是大文本的文件处理起来十分消耗计算资源,所以我们一般 推荐使用二进制格式的输入文件

3e1f2571cf957112af17bf584d6e79cf.png

文本格式的PLINK数据包括两份文件 .ped文件 和 .map文件

  • ped文件 包含个体信息(例如个体标识符ID,性别等等)以及他们的基因型信息
  • map文件 包含遗传标记的信息(染色体号,snp号等等&#
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值