转录组分析_PacBio全长转录组分析2

PacBio全长转录组分析2

我们前面已经推送过一篇Pacbio的分析流程了(PacBio全长转录组分析),但是后来发现对六倍体小麦来说,最后一步是有瑕疵的。另外,也没有校正的介绍,今天我们就补上。听说最近PacBio平台也升级了,号称准确率可以达到99%。

分析流程参考了官方的介绍(https://github.com/PacificBiosciences/IsoSeq_SA3nUP/wiki)。相关命令的安装参见前面一篇的推送。

早期的数据格式有h5格式,包括3个文件,1.bax.h5,2.bax.h5,3.bax.h5。需要先转换成bam格式,命令如下

bax2bam -o mynewbam mydata.1.bax.h5 mydata.2.bax.h5 mydata.3.bax.h5

生成的文件以subreads.bam结尾。

目前再做的话,一般公司交付的就是这个subreads.bam文件。

#获取HiFi reads
ccs -j 10 mydata.subreads.bam mydata.ccs.bam

# Primer removal and demultiplexing
lima --isoseq --peek-guess mydata.ccs.bam primer.fasta mydata.fl.bam

# got FLNC reads
isoseq3 refine mydata.fl.primer_5p--Nanda_3p.bam primer.fasta mydata.flnc.bam --require-polya

# 六倍体小麦,不需要polish。即:不需要 isoseq3 polish
isoseq3 cluster mydata.flnc.bam mydata.polished.bam --verbose --use-qvs

# 将bam文件转换成fastq或者fasta
bam2fasta -o mydata mydata.flnc.bam
bam2fastq -o mydata mydata.flnc.bam

# 使用二代测序reads校正,软件是fmlrc 。首先将同一材料的二代测序reads合并一个文件,双端reads也没关系。
cat mydata.NGS.fastq | awk 'NR % 4 == 2' | sort -T ./ | tr NT TN | ropebwt2 -LR | tr NT TN | fmlrc-convert -f comp_msbwt.npy

fmlrc -p 4 -k 31 -K 61 comp_msbwt.npy mydata.flnc.fasta mydata.flnc.corrected.fa
# mydata.flnc.corrected.fa中存在冗余

最后生成的fasta文件mydata.flnc.corrected.fa里面就是高质量的转录本序列了,接下来就可以进行下游分析了。可以参考这一篇最新PacBio全长转录组标准分析流程。

be09681f6efa71eb86c6356dcf519ec2.png

最后再次提醒下,六倍小麦中最好不要使用isoseq3 polish。因为会把部分同源基因给弄成一个基因。

如果你的数据是公司分析的,最好提醒下这个地方。

7a8a8582401b1877a6e3c6848554ccc4.png
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值