在NGS的下机数据中,我们通常抽取一定比例的fq文件做分析。在此,笔者提供两种方式来抽取fq数据。
第一种方法速度较快,但存在一定的随机误差。
运行方式:
perl $0 fq文件 抽取比例
#! /usr/bin/perl -w
use strict;
die "#usage:perl $0 <fq><threshold>\n" unless @ARGV==2;
my $fa=shift;
my $threshold=shift;
$fa=~/\.gz/?(open IN,"gzip -cd $fa|"||die) : (open IN,$fa||die);
while(<IN>){
chomp;
if($.%4==1){
my $rand=rand(1);
if($rand<$threshold){
print "$_\n";
print scalar <IN> for 1..3;
}
}
}
close IN;
第二种方法方法满足了精确抽取,但较第一种方法稍慢一些。用法相同。
#! /usr/bin/perl -w
use strict;
die "#usage:perl $0 <fq><threshold>\n" unless @ARGV==2;
my $fa=shift;
my $threshold=shift;
my $num=$fa=~/\.gz/? `gzip -cd $fa|wc -l`/4 :`less $fa|wc -l`/4;
my $need=int($num*$threshold);
my %ha;
for(;;){
my $tmp=int(rand($num));
$ha{$tmp}=1;
last if (keys %ha)==$need;
}
$fa=~/\.gz/?(open IN,"gzip -cd $fa|"||die) : (open IN,$fa||die);
while(<IN>){
chomp;
my $line=($.-1)/4;
if(exists $ha{$line}){
print "$_\n";
print scalar <IN> for 1..3;
}
}
close IN;