生信软件21 - 多线程拆分NCBI-SRA文件工具pfastq-dump

在使用NCBI 工具fastq-dump拆分SRA文件时,拆分速度慢,

fastq-dump拆分参数说明:

  • –split-spot: 将双端测序分为两份,存放在同一个文件中
  • –split-files: 将双端测序分为两份,存放在不同的文件,但是对于一方有而一方没有的reads直接丢弃
  • –split-3 : 将双端测序分为两份,存放在不同的文件,但是对于一方有而一方没有的reads会单独放在一个文件夹里

pfastq-dump介绍

pfastq-dump为fastq-dump的bash并行实现,需要提前安装好fastq-dump。

一个SRA格式的转录组数据大概在3G左右,使用hisat2比对可直接使用SRA作为输入文件;但如果使用BWA比对,则必须转换成fastq格式。pfastq-dump支持多线程拆分,相比于NCBI 工具fastq-dump效率大幅提升。

1. github下载

git clone https://github.com/inutano/pfastq-dump

cd pfastq-dump/

chmod a+x pfastq-dump


/pfastq-dump/bin/pfastq-dump -h

pfastq-dump用法

2. 单端数据拆分

对prefetch命令下载.sra数据进行拆分。

# SRA数据下载,提前安装好prefetch
nohup prefetch SRR3498212 &

# -t:线程数
# -O: 输出目录
/pfastq-dump/bin/pfastq-dump -t 8 -O ./ ./SRR3498212.sra
# 结果文件:SRR3498212.fastq

生信软件文章推荐

生信软件1 - 测序下机文件比对结果可视化工具 visNano

生信软件2 - 下游比对数据的统计工具 picard

生信软件3 - mapping比对bam文件质量评估工具 qualimap

生信软件4 - 拷贝数变异CNV分析软件 WisecondorX

生信软件5 - RIdeogram包绘制染色体密度图

生信软件6 - bcftools查找指定区域的变异位点信息

生信软件7 - 多线程并行运行Linux效率工具Parallel

生信软件8 - bedtools进行窗口划分、窗口GC含量、窗口测序深度和窗口SNP统计

生信软件9 - 多公共数据库数据下载软件Kingfisher

生信软件10 - DNA/RNA/蛋白多序列比对图R包ggmsa

生信软件11 - 基于ACMG的CNV注释工具ClassifyCNV

生信软件12 - 基于Symbol和ENTREZID查询基因注释的R包(easyConvert )

生信软件13 - 基于sambamba 窗口reads计数和平均覆盖度统计

生信软件14 - bcftools提取和注释VCF文件关键信息

生信软件15 - 生信NGS数据分析强大的工具集ngs-bits

生信软件16 - 常规探针设计软件mrbait

生信软件17 - 基于fasta文件的捕获探针设计工具catch

生信软件18 - 基于docker部署Web版 Visual Studio Code

生信软件19 - vcftools高级用法技巧合辑

生信软件20 - seqkit+awk+sed+grep高级用法技巧合辑

更多内容请关注公众号【生信与基因组学】,定期更新生信算法和编程、基因组学、统计学、分子生物学、临床检测和深度学习等内容。

  • 25
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信与基因组学

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值