seqtk 模拟数据

在全基因组重测序研究中,由于数据量庞大,seqtk成为了一款实用的模拟数据工具。通过简单的安装和使用,如`seqtk sample -s100 read1.fq 10000 > sub1.fq`,可以快速抽样生成子集数据。此外,seqtk还支持2-pass模式以减少内存使用,同时具备其他功能,适合快速走一遍测序流程或探究深度影响。
摘要由CSDN通过智能技术生成

因为全基因组重测序样本数据量太大,样本数多,服务器吃不消,时间也太久,omictools上找一些可以模拟数据的软件。但是对比下来发现seqtk相对好用,也基本满足需求

如果仅仅是想走一遍流程,或者探究测序深度对结果影响可以使用seqtk。


1安装

git clone https://github.com/lh3/seqtk.git;

cd seqtk;

make

2使用

seqtk sample -s100 read1.fq 10000 > sub1.fq

seqtk sample -s100 read2.fq 10000 > sub2.fq

NOTE Subsample 10000 read pairs from two large paired FASTQ files (remember to use the same random seed to keep pairing)


3测试

seqtk sample -s100 ERR194146_1.fastq.gz  10 > sub1.fq

seqtk sample -s100 ERR194146_2.fastq.gz  10 > sub2.fq

这是千人基因组计划的样本NA12877,fastq1和fastq2各约50G,从中间各随机抽取10个reads

-s 后面的数字可以随便设置,但是必须相同。

速度并没有想象的快。如果 电脑内存不足,可以加上-2这个参数。        

2-pass mode: twice as slow but with much reduced memory

当然还有其他功能,可以查看说明书


https://github.com/lh3/seqtk






评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值