一文学会基因型和表型关联分析算法GEMMA

GEMMA是一款基于混合线性模型的GWAS分析工具,能排除连锁不平衡干扰,提高准确性并加快分析速度。本文详细介绍了GEMMA的工作原理、分析流程、输入文件格式及结果分析,帮助读者掌握使用GEMMA进行基因型和表型关联分析的方法。
摘要由CSDN通过智能技术生成

备注:本文同时发布在公众号“基因的生物信息学分析”,链接在这里

1.介绍

1.1 介绍_简介

GEMMA全称为:Genome-wide Efficient Mixed Model Association algorithm,即基于全基因组混合模型关联算法的工具[1]。GEMMA是一款基于混合线性模型的GWAS分析软件。可精确和快速地进行单SNP的GWAS、多SNP的GWAS和多性状的GWAS分析。

1.2 介绍_优点

1.2.1介绍_优点_排除了连锁不平衡的干扰3级标题

人类和细菌群落中本身的SNP差异造成了突变的连锁不平衡(即基因组本身序列有差异),造成了组内差异大于组间差异,进而导致通过GWAS分析找到的显著表达的基因只是由不同群体基因组的差异引起的,产生了大量的假阳性(图1)[2]。
图1图1.群里结构或遗传相关性带来的假阳性
而GEMMA以混合线性模型关联表型和基因型,通过计算群体中个体基因型的相似性矩阵,在一定程度上排除了群体基因组连锁不平衡的干扰,进而去除了这些假阳性(图2.)。GEMMA的算法计算式子如下:

表型=平均数+基因型效应+群体结构+环境

Y = W * α + X * β + u + ɛ

其中u~ MVNn(0,λτ-1K), ɛ ~ MVNn(0,λτ-1In)

零假设H0:每一个SNP的β=0(即基因型与表型无关), 备择假设H1:存在β≠0,存在某个SNP的β≠0(即基因型与表型相关)
图2图2.计算相似性矩阵并结合多元线性回归模型

1.2.2介绍_优点_速度快

使用固定的处理器配置对数据进行分析在比较中,GEMMA在精确算法中速度最快,在近似算法中也仅仅慢于GRAMMAR;GEMMA准确度和EMMA更接近(图3)[3]。但图3中只有一部分算法,新的算法如phylogenetic convergence test还在不断的被开发出来。
在这里插入图片描述图3.方法学比较

处理器:
n Intel Xeon L5420 2.50 GHz CPU
数据:
HDL-C:m=99, n=681 and p=1,885,197
Crohn‘s disease:m=n=4686 and p=442,001

2.实际操作

2.1实际操作_分析流程概述

图4.流程

2.2实际操作_输入文件格式

GEMMA支持BIMBAM格式和plink二进制格式,主要包括以.bed、.fam、.bim。这3种文件需要由标准格式的.vcf文件转化而来。限于篇幅,只选取部分文件讲解格式。

2.2.1*.vcf文件

vcf(Variant Call Format)文件是存储变异位点的标准格式,可以用来表示单核苷酸多态性、插入缺失、结构变异、拷贝数变异等。因为vcf格式很复杂,本文中未提及的请查看https://samtools.github.io/hts-specs/或http://www.cog-genomics.org/plink/2.0/input#vcf。
前几行以“#”开头的行的含义:

简称 含义
##fileformat
VCF格式版本号
##FILTER
显示这个文件已经进行了过滤
##contig
参考基因组contig信息
##INFO
INFO列中各简写的含义。ID、Number、Type、Description主要有几个tag标记:AD、DP、GQ、GT、PL

不以“#”开头的信息列的含义:

简称 含义
CHROM
表示变异位点位于哪个染色体
POS
变异位点相对于参考基因组所在的位置,若为删除或位移第一个碱基所在的位置。
ID
变异位点名称(对应dbSNP数据库中的ID;若没有,则默认用)
ALT
该位点突变后的碱基类型类型,若有多个,则用逗号分隔。
REF
该位点参考基因组的碱基类型。
QUAL
可以理解为所call出来的变异位点的质量值Q。Q=-10lgP,P表示这个位点发生错误的概率。因此,当Q=20时,错误率P=0.01。
FILTER 针对质量值等变量过滤之后,在FILTER一栏都会留下过滤记录,通过过滤的位点FILTER一栏显示“PASS”;没有通过过滤的位点的FILTER一栏为其它信息。若FILTER一栏为“.”,说明没有进行过滤。
INFO
有关该位点的额外信息
FORMAT
变异位点格式,其中字母简写的含义在文件中以“#”开头的行中
SMAPLE
使用的样本名称,由bam文件中@RG的SM标签决定。对应的数据必定有GT(genotype,样本基因型)信息。
GT:AD:DP GT信息中,两个数字之间以斜线分隔则表示二倍体样本位于两条染色体上的基因型。0表示该位点的与参考基因
  • 5
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值