![aeeae687fe5742de928e57ba3cb40f36.png](https://i-blog.csdnimg.cn/blog_migrate/52b93a666a3293e3d42ecba2a30d1ab6.jpeg)
从计算机的角度来说,生物的序列属于一种字符串,也是一种文本,因此生物信息分析属于文本处理范畴。文本存储为固定格式文件,生物信息的工作就是各种文本文件之间格式的转换,例如通过序列拼接将fastq转换为fasta,通过短序列比对将fastq与fasta合并为bam,通过变异检测将bam中突变位点提取出来转换为vcf。因此,我们可以通过总结每一种生物数据文件格式的处理方法来学习生物信息,这样当拿到固定格式的文件之后,就知道该如何来处理了。
fastq格式文件处理大全(一)
fastq格式文件处理大全(二)
fastq格式文件处理大全(三)
fastq格式文件处理大全(四)
排序
如果想对fastq格式文件进行排序,可以使用seqkit sort功能,我们可以对nanopore测序数据,按照长度从大到小进行排序,这样方便取出最长的序列。默认按照从小到大顺序,加上-r可以按照从大到小进行排序。
seqkit sort -l -r nanopore.fastq.gz
抽样
有时候需要从全部文件中抽取一部分进行分析