利用VCF文件构建系统发育树

导读

本文将介绍三种使用VCF文件,构建系统发育树的方法,包括程序的安装,使用,已及系统发育树的可视化与美化。

1. VCF2Dis

VCF2Dis[1]是一种新的简单高效的软件,用于计算基于VCF格式的距离矩阵

1.1. 安装

# 下载
wget -c https://github.com/hewm2008/VCF2Dis/archive/v1.47.tar.gz

# 解压
tar -zxvf v1.47.tar.gz

# 进入程序目录
cd VCF2Dis  

# 编译
make ; make clean   

# 测试运行
./bin/VCF2Dis

1.2. 距离矩阵

  • 利用 VCF2Dis生成距离矩阵
VCF2Dis -i test.vcf -o test.mat

1.3. mat2nwk

  • 文件转换
FastMe2.0
FastMe2.0

上传距离矩阵到在线网站, FastMe2.0[2]。上传以后,选择Data typeDistance matrix。 然后根据自己的需要进行配置,最后填入任务名称和Email来获取结果通知。

  • 结果下载

点击下载结果

结果下载
结果下载

结果文件是一个压缩文件,里面包含:

  1. 一个 .nwk文件用于进化树可视化
结果文件
结果文件
  1. stats.txt

​ 记录了文件转换过程中,选择的参数

  1. stdout.txt

​ 转换过程中的日志文件,记录了程序的运行过程

1.4. iTOL美化

十分推荐利用iTOL对进化树进行美化,该程序是网页版,配置简单,结果十分漂亮。

  • 导入 iTOL [3]美化
iTOL
iTOL

2. Phylip

PHYLIP[4]是用于推断系统发育的免费程序包。

2.1. 安装

  • 源码编译安装
# 下载PHYLIP 
wget -c http://evolution.gs.washington.edu/phylip/download/phylip-3.697.tar.gz

# 解包
tar zxf phylip-3.697.tar.gz 

# 进入程序文件夹
cd phylip-3.695/src/

# 复制文件
cp Makefile.unx Makefile

# 编译
make install  # 可能需要sudo 权限
  • conda安装
# 新建phylip环境,并安装phylip
conda create -n phylip -c bioconda phylip -y

2.2. 格式转换

  • 转换脚本下载
# 下载
wget -c https://github.com/edgardomortiz/vcf2phylip/archive/refs/tags/v2.8.zip

# 解压
unzip v2.8.zip
  • 转换为 PHYLIP matrix
python vcf2phylip.py -i test.vcf

# PHYLIP matrix是默认格式,不同输出格式,见下参数
# -f FASTA matrix
# -n NEXUS matrix
# -b binary NEXUS matrix

注意:test.vcf中的样本名一定要少于10个字符,否则会报错

2.3. 建树

  • 构建配置文件
  1. seqboot.par
test.phy  # 本程序的输入文件
# 选择bootstrap
100 # 设置bootstrap的值,即重复的replicate的数目,通常使用1000或者100,注意此处设定好后,后续两步的M值也为1000或者100
# yes确认以上设定的参数
# 设定随机参数,输入奇数值。
  1. dnadist.par
seqboot.out # 本程序的输入文件
T  # 选择设定Transition/transversion的比值
2.3628  # 比值大小
M   #修改M值
D  # 修改M值
100  # 设定M值大小
2  # 将软件运行情况显示出来
Y  # 确认以上设定的参数
  1. neighbor.par
dnadist.out  # 本程序的输入文件
M
100   # 设定M值大小
9  # 设定随机数,输入奇数值
Y  # 确认以上设定的参数
  1. consense.par
nei.tree  #本程序的输入文件
#确认以上设定的参数
  • phylip建树
# 在 phylip 文件夹下,依次运行下面的命令

# seqboot
./exe/seqboot < ./seqboot.par && mv ./outfile ./seqboot.out

# dnadist
./exe/dnadist < ./dnadist.par &&  mv ./outfile ./dnadist.out

# neighbor
./exe/neighbor < ./neighbor.par && mv  ./outfile ./nei.out && mv ./outtree ./nei.tree 

# consense
./exe/consense < ./consense.par && mv ./outfile ./cons.out && mv ./outtree ./constree 

3. IQ-tree

IQ-tree[5]的建树方法与phylip类似,只是最后一步不一样,同样需要先转换文件格式为:phy(格式转换见2.2)。

3.1. 安装

  • 利用 conda安装
# 新建iq-tree环境 并 安装iqtree
conda create -n iqtree -c bioconda iqtree -y

3.2. 建树

  • IQ-tree 建树(简单)
iqtree -s test.phy

替代模型选择与详细的分支评估,见http://www.iqtree.org/中说明

上面三种示例程序运行过程中使用的参数,需要根据自身数据进行调整。

参考资料

[1]

VCF2Dis: https://github.com/BGI-shenzhen/VCF2Dis

[2]

FastMe2.0: http://www.atgc-montpellier.fr/fastme/

[3]

iTOL: https://itol.embl.de/

[4]

PHYLIP 是用于推断系统发育的免费程序包。: https://evolution.genetics.washington.edu/phylip.html

[5]

IQ-TREE: http://www.iqtree.org/

本文由 mdnice 多平台发布

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
### 回答1: bcftools是一个广泛使用的命令行工具,用于处理VCF格式的变异调用数据。它支持检查,过滤,转换和合并VCF文件利用bcftools可以生成高保真度和高质量的系统发育构建系统发育必须先生成一个vcf文件。在vcf文件中,包含了每个样品在每个位置上的碱基。然后,可以使用bcftools进行变异的过滤和筛选,以过滤掉低质量的碱基以及不太可靠的变异。 在变异筛选之后,可以使用bcftools将过滤后的vcf文件转换为phylip格式。phylip是一种用于构建系统发育的标准格式。然后,利用phylip格式的文件和其他的支持文件,可以使用常规的系统发育软件,如RAxML和PhyML,构建系统发育。 总之,bcftools是一个非常有用的工具,能够对VCF格式的变异调用数据进行全面处理,并可以生成高质量的系统发育。它对于分子生物学和生物信息学研究都是非常重要的工具。 ### 回答2: BCFTools是一个非常流行的工具,可以用于处理VCF文件构建系统发育。使用BCFTools处理VCF文件有很多好处,例如可以过滤VCF文件中无用的信息,筛选出感兴趣的位点等。 要使用BCFTools构建系统发育,我们需要先将VCF文件中的数据转换成BCF文件。这可以通过使用bcftools view命令将VCF文件转换成BCF文件来完成。然后,我们需要使用bcftools query命令从BCF文件中提取需要的信息,例如基因型、SNP位点等。可以使用bcftools filter命令在提取信息的同时进行一些筛选操作,例如过滤掉低质量的位点、过滤掉缺失值等。 最后,在得到所需的信息后,我们可以使用构建系统发育所需的软件,例如PHYLIP等,将提取的信息输入到软件中进行分析和构建系统发育。 总之,使用BCFTools处理VCF文件可以大大简化系统发育构建过程,提高分析效率和准确性。但是,需要注意保证数据质量和正确性,以避免结果出错。 ### 回答3: BCFtools是一种用于处理VCF和BCF文件的工具集,可以用于构建系统发育。通过将多个样品的VCF文件合并以构建总体样本的VCF文件,可以使用BCFtools执行操作,例如基因型过滤、缺失数据的填充以及变异注释。 构建系统发育需要将样品的遗传差异映射到形结构中,以显示它们的亲缘关系。一种构建方法是使用多序列比对将DNA序列对齐,然后执行基于序列比较的形建构分析。另一种方法是使用变异的相对频率或一些组合遗传标志,例如单倍体基因型的分布来建构系统发育。这种数据分析方法称为分子系统学。 使用BCFtools进行VCF文件处理时,可以考虑以下步骤: 1)使用bcftools merge命令将多个样本的VCF文件合并成一个总体VCF文件。 2)使用bcftools view命令执行过滤,例如基因型和质量过滤,以减少噪音和杂质信号。 3)使用bcftools stats命令生成统计信息,例如变异密度、每个样本的基因型频率和分布的质量值等。 4)使用vcftools或其他变异注释工具添加有关变异和功能信息,例如GenBank注释、GO注释、KEGG通路注释等。 5)使用获得的信息对变异进行系统发育推断,以判断样本之间的亲缘关系、进化史和分化历史。常见的分化历史分析方法包括最大简约、相似度矩阵分析、邻接成对绘制等分子系统学方法。 综上所述,BCFtools是一种有用的工具集,可以处理VCF文件构建系统发育,并帮助科学家了解样本之间的遗传相似性和进化历史。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值