记录一下关于SRA数据的拆分

最近下了很多sra数据,但是在拆分上耗费了大量时间。简单总结一下:

1.拆分数据之前先看一下SRR Run的页面确定这个数据的类型,单细胞还是bulk,单端还是双端,是不是标准的10x,一共有几条序列等等。

2.数据可以使用kingfisher get下载。可以下载sra或者fastq。但有的时候直接下载fastq数据他拆分的不对,就要重新下载,很耽误事。踩了几次坑之后改成了下载sra自己拆分。

3.拆分工具可以选择fastq-dump或者fasterq-dump。fastq-dump可以添加--gzip拆分成gz格式但速度慢,fasterq-dump可以使用-e参数进行多线程拆分,速度更快。总结一下之前踩坑的经验,如果是不需要I5序列的10x测序数据,一般kingfisher直接拆分没啥问题,或者是用--split-3拆分。(但split-3有时候也会出现拆的不对的问题,具体原因不清楚)如果需要index,用--split-files拆分,且尽量用fastq-dump,比较稳定。fasterq-dump不知道为什么用过几次拆出来的数据很奇怪。

*可以用zcat查看自己的文件,看一下拆出来的数据看起来是否靠谱

更新:SRA可以看序列大小,ls -lh一下之后比较看是否拆错了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值