linux fastq.gz文件如何解压,科学网—批量gzip,ungzip快速压缩和解压fastq文件 - 陈明杰的博文...

二代测序fastq文件太大,解压,压缩很浪费时间。

常规:使用gzip gunzip单线程压缩

进阶1:python调用threading,多线程压缩,相当于开了N个窗口进行解压和压缩,略。

进阶2:使用pigz,unpigz调用多核cpu压缩和解压。

实测:import os

import time

a= time.time()

#os.system('gunzip 1-Input_sequence_R2.fastq.gz')  # 89s

#os.system('./unpigz -p 4 1-Input_sequence_R2.fastq.gz') #37s

#os.system('gzip 1-Input_sequence_R2.fastq')       # 1200s

#os.system('./pigz -p 4 1-Input_sequence_R2.fastq') # 292s

b=time.time()

print b-a

调用4核,一个10g的fastq文件,gzip压缩用了1200s,而pigz用了292s,3倍多

gzip解压用了89s,unpigz解压用了37s,接近3倍

终极版:python的threading+pigz的-p,把cpu全用了。

对于6个文件的压缩,可以调用6*4=24核,应该能快个3倍多,节省时间。

A parallel implementation of gzip for modern multi-processor, multi-core machines

PS:为什么不用各种专门压缩软件?

例如,这里的一大堆:

1,专用软件,安装麻烦

2,客户还得安装

3,参数太复杂,没有pigz 方便

转载本文请联系原作者获取授权,同时请注明本文来自陈明杰科学网博客。

链接地址:http://blog.sciencenet.cn/blog-707141-1176120.html

上一篇:[转载]python解压压缩包的几种方法

下一篇:[转载]chromedriver与chrome版本映射表

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值