GWAS学习笔记(一):质量控制(QC)

本系列文章采用的数据集与代码来自https://github.com/MareesAT/GWA_tutorial
该教程获得了许多人的推荐,是一份很详细的step-by-step guide。

本文将介绍该教程中的QC部分(1_QC_GWAS.zip),后续或将继续添加有关QC的其他细节。

1. 准备

首先,使用下述命令即可将该Github项目下载到本地:

git clone https://github.com/MareesAT/GWA_tutorial.git

下载后,将文件1_QC_GWAS.zip解压缩即可得到该部分的教程文件与数据。

1_QC_GWAS.zip解压缩后得到的文件

其中,教程文件为1_Main_script_QC_GWAS.txt

由于本教程还需使用plink软件,plink 1.9版本的下载页面见https://www.cog-genomics.org/plink2/。只需在页面选择对应系统版本的二进制软件压缩包下载,解压后即可直接使用。

此外,环境中还应装有R语言。

2. 数据简介

该Github教程使用了可免费获取的HapMap数据:hapmap3_r3_b36_fwd.consensus.qc。编写者模拟了一组二进制表型特征,并将其添加到该数据集中,并命名为HapMap_3_r3_1。未经添加的原始HapMap数据可见http://hapmap.ncbi.nlm.nih.gov/downloads/genotypes/2010-05_phaseIII/plink_format/

典型的plink数据集包括三个文件:.bed文件、.bim文件和.fam文件

  • bed文件:二进制文件,主要是存储等位基因信息。它开头前三个字节永远是0x6c, 0x1b, 和0x01,接下来就是V组N/4个字节的序列,这里V是指遗传变异的个数,N是指样本数,假如N无法被4整除,那么将N/4的结果取整后加1作为各组的字节数,编码信息如下:
    • 00:基因型是bim文件中allele 1的纯合子
    • 01:基因型缺失
    • 10:基因型是杂合子
    • 11:基因型是bim文件中allele 2的纯合子
  • bim文件:文本文件。包含染色体编号(默认可用1-22、X、Y。可采用扩展编号)、SNP编号、位点的摩尔距离(可用0代表不知道)、物理位置、allele 1(常为次等位基因)、allele 2(常为主等位基因)。其中allele用0代表缺失。
  • fam文件:文本文件。包含Family ID、Individual ID、Paternal ID(父本ID)、Maternal ID(母本ID)、Sex(雄性为1,雌性2,未知为0)、Phenotype。这里的Phenotype取值可为1(对照组)、2(实验组/病例)、-9/0(表示实验组/对照组表型缺失)。如果出现了 {-9, 0, 1, 2}之外的值,则表型会被读取为数量性状。

有公众号文章(小麦穗粒数转录组分析(四)----使用plink进行关联分析 )指出,对于小麦,可将染色体改名为数字(如1A->1,1B->2类推)来适应plink的染色体编号规则。

plink 1.9支持将染色体用字符表示。在由VCF格式向plink转换时,使用参数“–allow-extra-chr”即可正常转换形如“chr1A”的染色体名称。

该GitHub项目中提供的脚本可在简单修改后适用于其他数据集的研究。但由于脚本是针对二进制表型(binary outcome measure)开发的,因此并不适用于数量性状的研究(需要进一步修改脚本)。

Note, most GWAS studies are performed on an ethnic homogenous population, in which population outliers are removed. The HapMap data, used for this tutorial, contains multiple distinct ethnic groups, which makes it problematic for analysis.
Therefore, we have selected

  • 15
    点赞
  • 57
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值