DInoPORE 是一种从直接 RNA 测序数据中检测腺嘌呤到次黄嘌呤 (A-to-I) 编辑位点的计算方法。识别的编辑位点还将估计其编辑率。
下面列出了使用的计算环境和软件。使用文档可以在此 readme 的最后一节中找到。
所需软件
- Guppy_basecaller 3.2.4(请修改 S1.Basecall_map_nanopolish.sh 以指向它)
- 包含的第三方软件
- Graphmap2 0.6.3
- Sam2tsv (Jvarkit 的一部分) 34d8e7f7
- Picard 2.21.6
- conda 环境中的软件包
- python 3.8.5
- h5py 2.10.0
- nanopolish 0.11.1
- pillow 8.3.1
- pyyaml 5.4.1
- requests 2.26.0
- samtools 1.9
- scipy 1.7.1
- R 包(R 版本 4.1)
- Matrix 1.3.4
- R.utils 2.11.0
- Rcpp 1.0.7
- abind 1.4.5
- caret 6.0.89
- data.table 1.14.2
- doParallel 1.0.16
- ff 4.0.4
- foreach 1.5.1
- keras >= 2.3.0
- multiROC 1.1.1
- optparse 1.6.6
- pacman 0.5.1
- plyr 1.8.6
- pracma 2.3.3
- scales 1.1.1
- tensorflow >= 2.3.0
- tidyverse 1.3.1
- usefun 0.4.8
- zoo 1.8.9
DInoPORE 已在 CentOS Linux 7 和 Ubuntu 20.04 上进行了测试。
安装 - 创建 conda 环境
conda create -n myenv python=3.8.5 h5py=2.10.0 nanopolish=0.11.1 pillow=8.3.1 pyyaml=5.4.1 requests=2.26.0 samtools=1.9 scipy=1.7.1
conda activate myenv
使用方法
bash mainscript1.sh -e <path/to/exptdir> -r <path/to/ref.fa> -n <num_threads> -g <aggregation_Group>
bash mainscript2.sh -e <path/to/exptdir> -r <path/to/ref.fa> -n <num_threads> -g <aggregation_Group> -c <class_Reference>
必需参数
-e
包含 “fast5” 文件的目录的完整路径。用户必须对该目录的父目录也具有写入权限。-r
参考基因组 FASTA 的完整路径。-n
可供 DInoPORE 使用的线程数。-g
用户定义的组名称,用于指定属于同一组的运行。当跨多个实验运行进行汇总时,这会影响汇总步骤。-c
包含坐标的类别和编辑率信息的类别和编辑率参考(请参阅 code/misc/Example_classref.tsv 以获取格式)
可选参数-d [y/n]
删除基础调用 fastq 文件?默认值为 n。
示例
bash mainscript.sh -e /data/xen_s9_r1_50k -r /data/reference/xenLae2.fa -n 15 -g xen50k -c /data/xen_s9_r1_50k/groundtruth_class_regression.tsv
注意:mainscript.sh 期望在 exptdir 中找到 “fast5” 目录:
path/to/exptdir
└── fast5
文档
运行 Mainscript1.sh(步骤 1 到 3)对单个测序运行
(1) 基础调用 fast5 -> 映射到基因组参考 -> 运行 nanopolish 以提取信号
脚本:
S1.Basecall_map_nanopolish.sh (输入: $exptdir $ref $numcore)
输出:
- e x p t d i r / o u t f a s t q b a m / {exptdir}/out_fastq_bam/ exptdir/outfastqbam/{expt}.combined.fastq
- e x p t