Nanopore_psU

描述

本协议用于纳米孔RNA直接测序数据中假尿苷(psU,Ψ)位点的预测。没有最小输入读取要求,但推荐对于人类转录组的后续处理使用>1M读取量的原始数据集。对于更大的转录组,推荐使用更多的读取。

本协议已在Linux系统集群(“midway2”,Scientific Linux 7.2)上进行了测试。

软件包版本

测试代码的软件和软件包版本:

  • Python2: 2.7.5
  • Python3: 3.8.8
  • guppy_basecaller: 3.2.2+9fe0a78 (© Oxford Nanopore Technologies, Limited) (到目前为止,此软件仅在您是Oxford Nanopore Technologies的客户时可用)
  • minimap2: 2.18-r1015
  • samtools: 1.11 (Copyright © 2020 Genome Research Ltd.)
  • Python包:
    • pickle: 4.0 (python3)
    • numpy: 1.16.4
    • sklearn: 0.20.4
    • re: 2.2.1
    • pandas: 0.24.2

下载

您可以通过以下命令将软件包下载到您的集群:

git clone https://github.com/sihaohuanguc/Nanopore_psU.git

然后进入包含setup.py文件的文件夹,并运行:

pip install .

现在您已经安装了软件包。您可以在您的账户的任何地方使用它。如果您对任何命令不清楚,可以通过命令获取帮助:

nanopsu -h

请遵循指导并遵守您集群的规则,在运行命令时。

协议

  1. 基础呼叫
    您可以在测序期间进行基础呼叫。如果是这样,这一步是不必要的,直接进行下一步。如果数据没有基础呼叫,请使用以下命令进行基础呼叫:

    guppy_basecaller --input_path fast5 \
                     --recursive \
                     --save_path fastq \
                     --records_per_fastq 0 \
                     --flowcell FLO-MIN106 \
                     --kit SQK-RNA002 \
                     --qscore_filtering \
                     --min_qscore 7 \
                     --cpu_threads_per_caller 3 \
                     --num_callers 5
    

    "Input_path"是您的原始数据路径。"Save_path"是您的输出文件夹。"Flowcell"是您使用的纳米孔流细胞类型。“Kit"是您使用的纳米孔直接RNA测序试剂盒版本。根据您自己集群的状态自定义"cpu_threads_per_caller"和"num_caller”。这一步计算密集。

  2. 对齐和堆叠
    要将读取对齐到参考并堆叠读取,请运行以下命令:

    nanopsu alignment -i path/of/fastq/ -r reference.fa
    

    第一个参数是输入fastq路径。fastq文件必须直接在此文件夹中。第二个参数是基因组参考文件。输出是一个名为alignment的文件夹,包含两个子文件夹plus_strand和minus_strand。这两个子文件夹分别包含对齐到正向和反向链的读取数据。这一步计算密集,这意味着不建议在集群的登录节点或本地计算机上运行这一步。

  3. 特征提取
    由于samtools的设计,在mpileup文件中,剪接读取将在跳跃区域填充一个">“或”<“,覆盖度和质量分数会受到影响。带有”>“或”<"的数据点不是真实的碱基。运行以下脚本来删除mpileup文件中的间隙部分。这一步计算密集。

    nanopsu remove_intron
    

    在您的plus_strand和minus_strand文件夹中,您将找到一个名为collect_pile_no_intron.txt的新文件。

    对于测试示例,您将在plus_strand文件夹中找到一个名为collect_pile_no_intron.txt的文件。

    然后提取所有U位点的特征。为了使预测更可靠,U位点有一个阈值,即20个读取。只有>20个读取的U位点将被处理以进行后续分析。这一步计算密集。

    nanopsu extract_features
    

    输出文件是alignment文件夹中的特征.csv。此文件包含对齐到正向和反向链的读取的信息。

    对于测试示例,特征.csv应该包含176行。

  4. psU预测
    要预测features.csv中所有U位点的psU概率,请运行以下脚本。

    nanopsu prediction
    

    输出文件是alignment文件夹中的prediction.csv。每一行包含参考链、参考链上的位置((-)链上的位点有其在(-)链上的索引)、碱基类型、覆盖度、U概率和psU概率。

    对于测试示例,prediction.csv应该包含176行。

  • 13
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值