同源基因MEGA建树

原创已于 2025-06-24 21:00:35 修改 · 2.3k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2024-04-22 16:08:33 首次发布

4 篇文章

订阅专栏

本文介绍了在生物信息学研究中，如何准备文件（包括下载fasta文件、获取物种蛋白序列和Pfamhmm结构文件），使用hmmer进行HMM检索，TBtools提取序列，以及进行多序列对比（通过Muscle算法）和构建系统发育树的过程。

一、文件准备

从NCBI下载的或者通过提取DNA/RNA或送测序得到的数据

网盘：（后续所需的TBtools、MEGA也在网盘里）

win11右键“此电脑”——“属性”——“高级系统设置”——“环境变量"

点击”确定“

打开cmd：“shift+鼠标右键”——”终端管理员“

cd 所有文件所在路径/ #建议把以上所有文件放在同一个文件夹里面，方便操作

用记事本打开下载的hmm文件（PF00248.hmm），将f改为b

hmmsearch.exe -E 1e-5 .\PF00248.hmm .\protein.faa > out.txt  #1e-5为筛选值

将out.txt 中的ID号提取出来，保存为Excel文件或者txt文件

Sequence Toolkit —— Fasta Tools —— Fasta Extract(Basic)

#注意复制ID号后把最后的空行删除

”ALIGN"——“Edit/Build Alignment" ——"Create a new alignment"——"Protein"

点击”Edit“——"Insert Sequence From File"导入我们需要比对的序列（需拉到最后，检查有无空行，若有，鼠标右键——delete）

ctrl+A全选，点击 Muscle（肌肉图标，“W”指的是ClustalW算法，若发文章建议选择ClustalW算法)

"Data"—— "Save Session"保存序列比对的结果

"Data"——"Phylogenetic Analysis"进行系统发育分析

使用最大似然法建树前先进行测试，再选用模型

“MODELS”——“Find Best DNA/Protein Models(ML)..."(漫长的等待...)

结果如下：

”PHYLOGENY“——"Contrust/Test Maximun Likelihood Tree..."

（更加漫长的等待...）