SMRT 分析:读取校正

SMRT 分析:读取校正

介绍

由于实时测序的性质,PacBio 读数很长,但质量相当差。 由于 PacBio 文库制备会产生环状 DNA 分子,因此一些较短的分子会被聚合酶处理数次。 这导致同一分子的多次读取,然后该信息用于产生高质量的循环共有 (CCS) 读取。 然而,在基因组组装中,即使质量很差,长读取也是极其重要的。 因此,已经实现了多种纠错长(即非CCS)读取的方法。 这些方法的共同点是短读长与长读长的比对,从而计算长读长的共有序列。

使用 PacBio 读数的自我校正

PacBios smrtanalysis 软件包似乎正朝着仅支持 PacBio 读数的自我校正的方向发展。 这意味着使用 PacBio 较短的读取来纠正较长的 PacBio 读取。 RS_HGAP_Assembly.3 协议在组装前使用自校正; P_PreAssemblerDagcon 模块正在执行实际的读取校正。

在这种情况下,input.xml 文件只需要包含保存 PacBio 读取的 bas.h5/bax.h5 文件的文件名。 管道本身根据用户指定的基因组大小将读取分为短读取和长读取。 基本上,读取数据集被拆分,以确保长读取对整个基因组的平均覆盖率足够高。 因此,正确设置基因组大小对于此过程非常重要。

当前版本的 smrtanalysis 支持高达 130 Mb 的基因组大小。 此外,默认设置有利于组装具有潜在较低覆盖率的较大基因组,而默认设置可能对高覆盖率的细菌基因组没有意义。

使用 Illumina 读数进行读数校正

使用 Illumina 短读取校正 PacBio 长读取是读取校正的另一种选择。 这首先是通过 pbToCA 算法实现的。 后来,在 smrtpipe 管道中也可以使用 Illumina 读取进行纠错。 但是,最新版本的 smrtpipe 在运行此协议时会失败(它缺少“smrtanalysis-2.3.0/analysis/bin/align2layouts.py”脚本)。 我被告知 smrtpipe(2.3.0 版)不再支持使用 Illumina 读取进行读取更正,即使失败的协议取自 smrtpipe 用户指南 2.3.0 版。 尽管如此,使用 smrtpipe 进行 Illumina 纠错仅适用于 smrtanalysis 版本 2.1.1 或更早版本。 或者,其他选项也存在于 smrtanalysis 包之外(参见后面的部分)。

在以下示例中,input.xml 文件需要同时指向 PacBio 读取(此处以一个 bax.h5 文件的形式)和 Illumina 读取(格式化为 fastq 文件):

<?xml 版本="1.0"?>

<pacbioAnalysisInputs>

<数据参考>

<url ref="run:0000000-0001">

<location>/path/to/bax.h5</location>

</url>

<url ref="fastq:/path/to/Fastq"/>

</数据参考>

</pacbioAnalysisInputs>

以下 settings.xml 文件将执行读取校正(注意“useFastqAsShortReads”参数):

<?xml 版本="1.0" ?>

<smrtpipe设置>

<模块名称="P_Fetch"/>

<模块名称="P_Filter">

<param name="过滤器">

<value>MinRL=1000,MinReadScore=0.80</value>

</param>

<param name="工件">

<值>-1000</值>

</param>

</模块>

<模块名称="P_PreAssembler">

<param name="useFastqAsShortReads">

<value>真</value>

</param>

<param name="useFastaAsLongReads">

<value>错误</value>

</param>

<param name="useLongReadsInConsensus">

<value>错误</value>

</param>

<param name="useUnalignedReadsInConsensus">

<value>错误</value>

</param>

<param name="blasrOpts">

<value>-minMatch 8 -minReadLength 30 -maxScore -100 -minPctIdentity 70 -bestn 100</value>

</param>

<param name="layoutOpts">

<value>--overlapTolerance=25</value>

</param>

<param name="consensusOpts">

<值>-w 2</值>

</param>

</模块>

</smrtpipeSettings>

运行这个例子(记住不要加载最新的 smrtanalysis 包!):

模块加载 smrtanalysis/2.1.1

smrtpipe.py -D TMP=/path/to/outputFolder -D SHARED_DIR=/path/to/outputFolder -D NPROC=8 --output=/path/to/outputFolder --params=/path/to/settings.xml xml:/path/to/input.xml

此协议的输出将在“data”子文件夹中以更正后的 fasta 和 fastq 文件的形式找到:

/outputFolder/data/corrected.fasta

/outputFolder/data/corrected.fastq

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值