DInoPORE

phylogenetic

于 2024-07-24 16:36:49 发布

阅读量688

点赞数 13

文章标签：网络服务器运维考研青少年编程

本文链接：https://blog.csdn.net/scuTim_Liu/article/details/140666889

版权

DInoPORE 是一种从直接 RNA 测序数据中检测腺嘌呤到次黄嘌呤 (A-to-I) 编辑位点的计算方法。识别的编辑位点还将估计其编辑率。
下面列出了使用的计算环境和软件。使用文档可以在此 readme 的最后一节中找到。

所需软件

Guppy_basecaller 3.2.4（请修改 S1.Basecall_map_nanopolish.sh 以指向它）
包含的第三方软件
- Graphmap2 0.6.3
- Sam2tsv (Jvarkit 的一部分) 34d8e7f7
- Picard 2.21.6
conda 环境中的软件包
- python 3.8.5
- h5py 2.10.0
- nanopolish 0.11.1
- pillow 8.3.1
- pyyaml 5.4.1
- requests 2.26.0
- samtools 1.9
- scipy 1.7.1
R 包（R 版本 4.1）
- Matrix 1.3.4
- R.utils 2.11.0
- Rcpp 1.0.7
- abind 1.4.5
- caret 6.0.89
- data.table 1.14.2
- doParallel 1.0.16
- ff 4.0.4
- foreach 1.5.1
- keras >= 2.3.0
- multiROC 1.1.1
- optparse 1.6.6
- pacman 0.5.1
- plyr 1.8.6
- pracma 2.3.3
- scales 1.1.1
- tensorflow >= 2.3.0
- tidyverse 1.3.1
- usefun 0.4.8
- zoo 1.8.9
  DInoPORE 已在 CentOS Linux 7 和 Ubuntu 20.04 上进行了测试。

安装 - 创建 conda 环境

conda create -n myenv python=3.8.5 h5py=2.10.0 nanopolish=0.11.1 pillow=8.3.1 pyyaml=5.4.1 requests=2.26.0 samtools=1.9 scipy=1.7.1 
conda activate myenv

使用方法

bash mainscript1.sh -e <path/to/exptdir> -r <path/to/ref.fa> -n <num_threads> -g <aggregation_Group>
bash mainscript2.sh -e <path/to/exptdir> -r <path/to/ref.fa> -n <num_threads> -g <aggregation_Group> -c <class_Reference>

必需参数

-e 包含 “fast5” 文件的目录的完整路径。用户必须对该目录的父目录也具有写入权限。
-r 参考基因组 FASTA 的完整路径。
-n 可供 DInoPORE 使用的线程数。
-g 用户定义的组名称，用于指定属于同一组的运行。当跨多个实验运行进行汇总时，这会影响汇总步骤。
-c 包含坐标的类别和编辑率信息的类别和编辑率参考（请参阅 code/misc/Example_classref.tsv 以获取格式）
可选参数
-d [y/n] 删除基础调用 fastq 文件？默认值为 n。
示例

bash mainscript.sh -e /data/xen_s9_r1_50k -r /data/reference/xenLae2.fa -n 15 -g xen50k -c /data/xen_s9_r1_50k/groundtruth_class_regression.tsv

注意：mainscript.sh 期望在 exptdir 中找到 “fast5” 目录：

path/to/exptdir
└── fast5

文档

运行 Mainscript1.sh（步骤 1 到 3）对单个测序运行

(1) 基础调用 fast5 -> 映射到基因组参考 -> 运行 nanopolish 以提取信号

脚本：
S1.Basecall_map_nanopolish.sh (输入: $exptdir $ref $numcore)
输出：

${exptdir}/out_fastq_bam/$ {expt}.combined.fastq

最低0.47元/天解锁文章

phylogenetic

关注

13
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
DInoPORE

DInoPORE 是一种从直接 RNA 测序数据中检测腺嘌呤到次黄嘌呤 (A-to-I) 编辑位点的计算方法。识别的编辑位点还将估计其编辑率。下面列出了使用的计算环境和软件。使用文档可以在此 readme 的最后一节中找到。
复制链接

扫一扫