这次组装的数据clean data差不多有40G的数据量,可惜使用megahit组装却只得到几十兆大小的文件,显然这里面有很多重复序列,刚好测试下fastuniq
默认参数
fastuniq -i 1.txt -t q -o output_1.fastq -p output_2.fastq -c 1
没什么改变
file format type num_seqs sum_len min_len avg_len max_len
clean_R1.fastq FASTQ DNA 129,257,421 19,209,488,541 50