比较基因组学常用分析软件和分析方法

比较基因组学常用分析软件和分析方法

(1)同源基因的查找

OrthoMCL or Orthofinder;

(2)多序列比对

Muscle / MAFFT / ClustalW / T-coffee, Muscle 效果好点

(3)调取保守区域,并收尾连接,形成supergene

Gblocks

(4)进化树构建

RaxML MEGA 等, 很多文献用RaxML,PhyML或Mrbayes,因为ML树和贝叶斯进化树对核苷酸 / 氨基酸替代模型的选择非常敏感,故在进行进化树或分化时间构建之前,需对核苷酸 / 氨基酸替代模型进行选择。(jModelTest 对cDNA进行替代模型选择,ProtTest 对蛋白进行替代模型选择)

构建树的教程:https://www.yuque.com/wusheng/gw7a9p/mcc73y

(5)分化时间分析 divergence time

mcmctree. PAML中的一个程序, BEAST2

(6)基因扩张收缩分析

CAFE

(7)基因是否收到正选择

codeML PAML中一个程序

https://zhuanlan.zhihu.com/p/39992256

一、为什么需要选择核苷酸替换模型

构建进化树可以通过同源 DNA序列或蛋白质分子的氨基酸序列来实现,其具体的步骤基本上是先选取生物数据(同源 DNA 序列或蛋白质分子的氨基酸序列数据)与进化距离模型,然后对不同物种DNA 或蛋白质的序列进行比对,再应用距离模型和比对结果计算进化距离,最后通过进化距离构建进化树。

因此,选择进化距离模型是构建进化树的基础,DNA分子中基因的进化距离是通过对核苷酸替代数进行估计获得的(当遗传信息从父代复制到子代时,往往会发生一些改变,这些改变称为突变。突变是DNA进化的动力。常见的突变模式有:替代,即一个核苷酸被另一个核苷酸所替代;插入,即插入一个或多个核苷酸;删除,即删除一个或多个核苷酸。但是在分析进化时,一般只考虑替代。),要估计核苷酸替代数,就必须应用核苷酸替代的数学模型。由于核苷酸替换模型的选择直接影响进化距离的计算,进而对所构建的系统树是否合理起决定作用。即本文中核苷酸替换模型选择的问题?

二、核苷酸替换模型的选择

选择模型涉及两个主要问题,一是采用什么标准判断模型与数据拟合好坏的问题,二是采用什么方法计算选择模型的目标函数。对于第一个问题,目前提出的方法有似然率检验、AIC信息标准(information criteria)、贝叶斯因子(BIC标准)和决策论法等。对于第二个问题,目前主要采用最大似然法和贝叶斯法两种方法计算模型在给定数据集和系统树上的似然值。

有了核苷酸替代模型,我们就可以计算进化距离。在同一替代模型中,对核苷酸替代速率做不同假设就会得到不同的进化距离(不同的进化距离构建得到不同的进化树),常用的进化距离包括: p距离、替代率为常数的d 距离、替代数服从 [公式] 分布的 [公式] 距离 [公式] 。最后就可以通过进化距离构建系统树。目前比较常用的替代模型包括:JC69模型、K80模型、F81模型、TN93模型。由于核苷酸替换模型的选择直接影响进化距离的计算,进而对所构建的系统树是否合理起决定作用。

一、课程导语不少人因各式各样原因,在读研时跨行生信或从事生信相关研究,其中不少开端即自学。然漫漫自学路,迷茫困苦乃至萌生放弃做科研的念头。念此,决定在比较擅长的领域-病毒遗传进化方面做点尝试,开一门理论和实战演示并重的基础课。注:课程里数据分析演示,以病毒序列数据作为背景和例子。然大道共通,做其他生物遗传进化的同学也可以参考。 二、课程目标掌握常用的遗传进化分析方法流程,包括序列下载和预处理、序列比对、基因突变分析、重组和重配分析系统发育分析、基因选择压力分析、分化时间和进化速率估算、系统发生生物地理学分析(病毒时空动态分析)、蛋白质三级结构预测等。 三、适合人群(1)零基础,生物信息学入门;(2)有基础,需要提升的同学。 四、课程特色从算法原理到数据分析演示,知其所以然,避开数据分析黑箱子。思维导向,深入浅出式讲解,系统学习遗传进化相关知识。 五、课程安排【基础分析】专题一:病毒分类,序列下载,序列格式1. 病毒分类2. 病毒序列下载3. 序列格式解读4. 序列格式转换专题二:序列比对原理及应用1. 打分矩阵2. 序列比对策略3. 双序列比对4. 多序列比对专题三:基因突变分析、重组和重配分析1. 病毒基因突变分析2. 病毒重组和重配分析专题四:系统发育分析之理论基础篇1. 认识进化树2. 分子钟假说3. p距离与泊松校准4. 核苷酸进化模型深入剖析5. 几种建树方法原理详解专题五:系统发育分析之实战操作篇1. 建树流程2. 估算进化模型3. 系统发育树构建(NJ,ML,BI)4. 树的查看和美化专题六:系统发育分析进阶1. 系统发育信号检测2. 树拓扑结构比较3. 多基因联合建树【高级专题】专题七:基因选择压力分析1. 自然选择VS中性进化2. 枝长模型3. 位点模型4. 枝位点模型5. 进化枝模型6. PAML进行选择压力分析专题八:分化时间和进化速率估算1. 使用Beast估算分化时间和进化速率2. 使用Treetime估算分化时间和进化速率3. 使用LSD估算分化时间和平均进化速率专题九:系统发生生物地理学1. 谱系生物地理学介绍2. 贝叶斯随机搜索量(BSSVS)分析3. 结构化溯祖分析专题十:蛋白质三级结构预测1. 蛋白质三级结构介绍2. 蛋白质结构比对3. 三级结构预测方法4. 三级结构预测实践5. 三级结构质量评估6. 三级结构查看与作图
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值