Nanopore_psU

phylogenetic

已于 2024-07-06 17:06:14 修改

阅读量636

点赞数 13

文章标签：考研青少年编程正则表达式开源开源软件

于 2024-06-11 18:04:25 首次发布

本文链接：https://blog.csdn.net/scutim_liu/article/details/139605543

版权

描述

本协议用于纳米孔RNA直接测序数据中假尿苷（psU，Ψ）位点的预测。没有最小输入读取要求，但推荐对于人类转录组的后续处理使用>1M读取量的原始数据集。对于更大的转录组，推荐使用更多的读取。

本协议已在Linux系统集群（“midway2”，Scientific Linux 7.2）上进行了测试。

软件包版本

测试代码的软件和软件包版本：

Python2: 2.7.5
Python3: 3.8.8
guppy_basecaller: 3.2.2+9fe0a78 (© Oxford Nanopore Technologies, Limited) （到目前为止，此软件仅在您是Oxford Nanopore Technologies的客户时可用）
minimap2: 2.18-r1015
samtools: 1.11 (Copyright © 2020 Genome Research Ltd.)
Python包：
- pickle: 4.0 (python3)
- numpy: 1.16.4
- sklearn: 0.20.4
- re: 2.2.1
- pandas: 0.24.2

下载

您可以通过以下命令将软件包下载到您的集群：

git clone https://github.com/sihaohuanguc/Nanopore_psU.git

然后进入包含setup.py文件的文件夹，并运行：

pip install .

现在您已经安装了软件包。您可以在您的账户的任何地方使用它。如果您对任何命令不清楚，可以通过命令获取帮助：

nanopsu -h

请遵循指导并遵守您集群的规则，在运行命令时。

协议

基础呼叫
您可以在测序期间进行基础呼叫。如果是这样，这一步是不必要的，直接进行下一步。如果数据没有基础呼叫，请使用以下命令进行基础呼叫：

guppy_basecaller --input_path fast5 \
                 --recursive \
                 --save_path fastq \
                 --records_per_fastq 0 \
                 --flowcell FLO-MIN106 \
                 --kit SQK-RNA002 \
                 --qscore_filtering \
                 --min_qscore 7 \
                 --cpu_threads_per_caller 3 \
                 --num_callers 5

"Input_path"是您的原始数据路径。"Save_path"是您的输出文件夹。"Flowcell"是您使用的纳米孔流细胞类型。“Kit"是您使用的纳米孔直接RNA测序试剂盒版本。根据您自己集群的状态自定义"cpu_threads_per_caller"和"num_caller”。这一步计算密集。

对齐和堆叠
要将读取对齐到参考并堆叠读取，请运行以下命令：
```
nanopsu alignment -i path/of/fastq/ -r reference.fa
```
第一个参数是输入fastq路径。fastq文件必须直接在此文件夹中。第二个参数是基因组参考文件。输出是一个名为alignment的文件夹，包含两个子文件夹plus_strand和minus_strand。这两个子文件夹分别包含对齐到正向和反向链的读取数据。这一步计算密集，这意味着不建议在集群的登录节点或本地计算机上运行这一步。
特征提取
由于samtools的设计，在mpileup文件中，剪接读取将在跳跃区域填充一个">“或”<“，覆盖度和质量分数会受到影响。带有”>“或”<"的数据点不是真实的碱基。运行以下脚本来删除mpileup文件中的间隙部分。这一步计算密集。
```
nanopsu remove_intron
```
在您的plus_strand和minus_strand文件夹中，您将找到一个名为collect_pile_no_intron.txt的新文件。

对于测试示例，您将在plus_strand文件夹中找到一个名为collect_pile_no_intron.txt的文件。

然后提取所有U位点的特征。为了使预测更可靠，U位点有一个阈值，即20个读取。只有>20个读取的U位点将被处理以进行后续分析。这一步计算密集。
```
nanopsu extract_features
```
输出文件是alignment文件夹中的特征.csv。此文件包含对齐到正向和反向链的读取的信息。

对于测试示例，特征.csv应该包含176行。
psU预测
要预测features.csv中所有U位点的psU概率，请运行以下脚本。
```
nanopsu prediction
```
输出文件是alignment文件夹中的prediction.csv。每一行包含参考链、参考链上的位置（(-)链上的位点有其在(-)链上的索引）、碱基类型、覆盖度、U概率和psU概率。

对于测试示例，prediction.csv应该包含176行。

phylogenetic

关注

13
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
Nanopore_psU

本协议用于纳米孔RNA直接测序数据中假尿苷（psU，Ψ）位点的预测。没有最小输入读取要求，但推荐对于人类转录组的后续处理使用>1M读取量的原始数据集。对于更大的转录组，推荐使用更多的读取。本协议已在Linux系统集群（“midway2”，Scientific Linux 7.2）上进行了测试。
复制链接

扫一扫