PacBio全长转录组分析2
我们前面已经推送过一篇Pacbio的分析流程了(PacBio全长转录组分析),但是后来发现对六倍体小麦来说,最后一步是有瑕疵的。另外,也没有校正的介绍,今天我们就补上。听说最近PacBio平台也升级了,号称准确率可以达到99%。
分析流程参考了官方的介绍(https://github.com/PacificBiosciences/IsoSeq_SA3nUP/wiki)。相关命令的安装参见前面一篇的推送。
早期的数据格式有h5格式,包括3个文件,1.bax.h5,2.bax.h5,3.bax.h5。需要先转换成bam格式,命令如下
bax2bam -o mynewbam mydata.1.bax.h5 mydata.2.bax.h5 mydata.3.bax.h5
生成的文件以subreads.bam结尾。
目前再做的话,一般公司交付的就是这个subreads.bam文件。
#获取HiFi reads
ccs -j 10 mydata.subreads.bam mydata.ccs.bam
# Primer removal and demultiplexing
lima --isoseq --peek-guess mydata.ccs.bam primer.fasta mydata.fl.bam