在上期文章《全基因组关联分析项目设计——基因分型策略》中,周老师介绍了四种基因分型技术的特点及应用,并对这四种技术做了简要比较。本期文章将为大家介绍基因定位研究中表型处理的相关知识。
表型-基因型关联分析,是寻找与性状相关基因的重要手段。在基因型检测的手段不断丰富(重测序、GBS、多重PCR、SNP芯片等)以及成本不断降低的时代背景下,表型检测和数据前处理,就显得尤为重要,因为这将直接影响关联(连锁)分析结果的准确性。
一、表型的类型
常见的表型性状,我们可以将其分为三种: 数量性状,质量性状与分类性状 (表1)。 数量性状在遗传育种研究中十分常见。此类性状由多基因控制,且可以用数字量化,例如产量、株高等,所以它们也比较容易量化且适用于大部分线性回归分析模型。质量性状是一种简单的离散型分类性状。严格意义上讲,单基因组控制的性状才可能被定义为质量性状,例如人类单基因家族遗传病,动植物突变体研究中的单基因突变体。 表1 三种类型性状的特点二、表型值的处理
1. 分布类型的检验
对于符合一定遗传模式的性状,其性状分布模式也应该符合一定的特性。例如单基因控制的隐性性状,理论上应符合3:1的分离比,我们可以使用卡方检验来判断。对于多基因控制的数量性状,理论上其表型应该符合正态分布(又称作高斯分布)。 当我们拿到一组性状的时候,如何判断其是否符合正态分布呢?图2 利用R语言绘制数据的分布模式
关于表型数据的正态性判断,也可以登录我们的Omicshare论坛了解一下:
2. 表型异常值(极端值)的处理
如果数量性状符合正态分布,理论上应该符合中间个体多,两端极端个体逐步减少的特点。 但有时候,数据中可能依然会出现离开群体很远的位置,突然孤零零冒出几个数值异常的个体。这种情况就非常值得我们注意了,这样的样本有大概率是表型检测的错误。例如,在mGWAS研究中(以代谢物为表型的关联分析),在进行代谢物液相色谱检测的时候,软件有可能在部分样本中会将相邻峰与目标峰混淆,导致部分样本目标代谢物的表达量被高估。而这种情况,几乎只能靠人工去检查峰图文件才能发现问题。所以, 对于这种离群的异常值,我们都有必要回头去检查原始数据,判断其是否准确。3. 数据的标准化
数据的标准化是指将数据按照比例缩放,使之落入一个特定的区间。例如,将数据统一映射到[0,1]区间上。在同时对各类表型开展关联分析的时候,不同类表型的数值以及变异范围可能非常巨大,甚至差了几个数量级。例如,A表型变化范围可能是0.2~0.9,B表型的变化范围可能为20,000~80,000。那么,如此巨大的表型值差异就不利于在完成分析后进行不同表型的比较(例如,表型在某个关联SNP位点的遗传方差)。 为了解决这个问题,则可以对数据进行标准化。数据标准化的基本原则就是在不改变一组数值相对大小的情况下(自然也不影响关联分析的结果),对数据的整体进行调整。 常用的数据标准化方法有两种,一种是 z-score标准化 ,另一种是 min-max标准化 : (1) z-score标准化 即我们常说的数据中心化方法之一,公式为:z = (x - μ)/σ; z为标准化后的值,x为原始表型,μ为这组表型的平均值,σ为这组表型的标准差。 在z-score标准化后,这组表型将变成均值为0,标准差为1的一组数,低于平均值的表型变为负数,反之则为正数。如此处理后(如下图),数据的整体分布模式以及个体之间相对大小并没有改变(大哥依然是大哥),只是数据的变异范围被压缩到以0为中心的一个小区间。如此,将便于对不同类型的性状进行比较。4. 利用哑变量定义难以数值化的性状
一些性状属于描述型的多分类性状,不好直接数字化。例如,群体花色有红、黄、蓝3种颜色。由于红、黄、蓝没有明显的线性梯度关系,那么就不能将它们简单赋值为1、2、3,而是需要将它们按照合理的逻辑重新进行归类。这就需要引入哑变量对它们进行归类。 哑变量,又称为虚拟变量,是一种人为定义的变量类型,通常取值0和1。如花色的例子,将可以类似下图,针对每种颜色进行分组并赋予0,1变量,那么原来的一组颜色变量就被拆分为3组重新定义的变量。5. 多年多点表型的处理
为获得可靠的关联结果,我们通常会对同一个性状观测多次,多次观测可能是相同年份不同地点,也可能是不同年份相同(或不同)地点。 对于此类数据,我们可以根据性状的遗传机制选择不同的处理方式。 如果性状遗传力高,受环境影响不大,我们可以根据多年多点的结果取均值或BLUP值作为该性状的代表值进行分析。 如果性状遗传力低,受环境影响大,我们可以每年每点单独分析后综合评判结果,在获得定位结果后(例如获得了10个关联位点),那么可以利用多元回归模型开展基因-环境互作的分析。视频观看方式
电脑端: 登录Omicshare课堂 www.omicshare.com/class 观看学习 手机端: 通过点击基迪奥微信公众号底部菜单栏【视频教程】观看学习![bd71accbd56a3e099ec8850fb149114d.gif](https://i-blog.csdnimg.cn/blog_migrate/3051442a445b1177ef3c84173036cced.gif)
实用科研工具推荐
详实生信软件教程分享
前沿创新组学文章解读
独家生信视频教程发布
![4df652c4ce10dc4c3d42821f9ec1ac94.gif](https://i-blog.csdnimg.cn/blog_migrate/03bdb6be0d71c75ca4ac4821c81de200.gif)