快速构建进化树软件mashtree不同数据类型建树准确性对比

mashtree基本使用介绍

Mashtree 是一个用于创建基于 Mash 距离的树的工具。它巧妙地融合了 Mash 算法的高效性和邻接法的精确性,适用于快速计算大基因组之间的近似距离。

如果你想使用 Mashtree 进行建树,可以按照以下步骤操作:

  1. 安装 Mashtree:你可以从 GitHub 上的 Mashtree 仓库 获取源代码并安装。

  2. 运行 Mashtree(mashtree也可以对fasta文件建树):
    (1) Mashtree 的简单用法如下,速度快,

   mashtree *.fastq.gz > tree.dnd

这将生成一个 Newick 格式的树文件 tree.dnd

  1. 更精确的树:如果你想获得更精确的树,可以使用最小丰度查找器(--mindepth 0)来忽略那些可能是读取错误的非常独特的 k-mer,速度慢。
mashtree --mindepth 0 --numcpus 12 *.fastq.gz> mashtree.dnd
  1. 添加置信度值:你可以运行以下命令,速度非常慢:
mashtree_bootstrap.pl --reps 100 --numcpus 12 *.fastq.gz -- --min-depth 0 > mashtree.bootstrap.dnd

tips

1.mashtree接收的输入可以是raw_data,也可以是组装好的contig, 只要把想要建树的数据存储在一个文件夹中即可

2.现在有9个宏基因组测序数据,希望得到高质量的组装。基本想法是,按照样品进化树将样本进行合并。合并的数据有三种类型可用,

reads测序的单端文件(forward)


这里选择forward的测序文件建树,按照元信息标记,DE是同一地点的样本数据,IH是同一地点的样本数据,其中G距离IH为100米。

每个样本的双端文件cat在一起

在这里插入图片描述
结果显示,红色框与黄色框同仅用forward测序文件结果保持一致,但是C的关系单独展示,原因是这些都是环境样本,但是C所处的环境是酒店附近,会受到人类活动影响。

每个样本的组装文件

在这里插入图片描述
这个结果显示,IGH没有聚集在一起,说明使用assembly建树会丢掉一些原始reads,导致不能正确反应不同样本之间的关系。

综上

建议使用mashtree建树时,使用的数据类型是cat到一个文件的原始双端测序文件。

  • 12
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值