本文转载自知乎 nanopor技术专栏,修改了其中部分代码。
单分子纳米孔测序
使用的软件
使用HDFView 查看Fast5文件格式。
https://www.hdfgroup.org/downloads/hdfview/
使用ont_fast5_api软件对fast5文件进行拆分与合并
ont_fast5_api 网址
安装
直接使用pip安装
pip install ont-fast5-api
自行编译安装
git clone https://github.com/nanoporetech/ont_fast5_api
cd ont_fast5_api
python3 setup.py install
使用案例
多条合并为一个文件
single_to_multi_fast5 -i fast5_files/ -s multi -n 4000 --recursive
一个文件拆分为多条
multi_to_single_fast5 -i multi/ -s single --recursive -t 6
1.碱基识别工具
DeepNano
poretools 官网
poretools安装
2.序列比对工具
GraphMap
MarginAlign
3.从头组装工具
nanocorrect,首先利用graph- based,greedy partial order aligner方法进行纠错,然后利用Celera Assembler将纠错后的reads进行组装,最后利用nanopolish对组装结果进行进一步提升
4、单核苷酸变异检测工具
PoreSeq 低通量下,仍然有高准确率
Nanopolish
MarginAlign中的marginCaller模块
5、共有序列的测序(consensus sequencing)方法
实战
1.软件安装
基因组可视化 win+unix tablet
软件给出官方地址,简单的自行安装。比较复杂的会写出详细安装过程
2. 质控
mkdir nanoQC
#检测测序质量
nanoQC ../2.rawdata/minion/all..fastq.gz -o nanoQC
#统计质量信息
NanoStat --fastq ../2.rawdata/minion/all.sra.fastq.gz --outdir statreports
2.1 质控
NanoPlot --fastq ../2.rawdata/minion/all..fastq.gz -t 16 --maxlength 40000 --plots hex dot pauvre kde -o nanoplot
Nanoplot --summary sequencing_summary.txt --loglength -o summary
选项参数:
-t:线程数目
-o, --outdir:输出结果目录
-p, --prefix:输出结果前缀
--color:点的颜色
--N50 表示在序列读长的直方图中显示N50的标识
--title:标题
--downsample :在输入文件中随机抽取n条序列进行处理
--minlength:忽略nbp以下的reads
-- fastq:输入fastq格式文件
-f:图片类型
--plots:绘图类型,kde,hex,dot,pauvre
2.2 过滤(nanofilt和filtlong二选一即可)
使用nanofilt过滤,nanofilt无法识别压缩文件,需要先解压。
gunzip -c ../2.rawdata/minion/all.fastq.gz | NanoFilt -q 7 -l 1000 --headcrop 50 --tailcrop 50| gzip > clean.NanoFilt.fastq.gz
选项参数:
-l ,--length :过滤掉小于此长度的序列
--maxlength :过滤掉超过此长度的序列
-q , --quality :过滤掉低质量序列
--minGC:过滤掉