今天记录一个处理fasta文件的小知识,我们经常需要处理fasta文件的序列名称,有时候需要去掉序列名称后的注释信息,这时候可以用awk命令进行处理。
例如,我们有一个fasta格式的蛋白序列文件,文件名称为pep.fasta,内容如下:
>NP_001016845.1 aquaporin-3 [Xenopus tropicalis]
MGRQKDFINKCNQLLRLRNKLLRQALSECLGTLILVMFGCGSVAQ
>NP_001090816.1 lens fiber major intrinsic protein [Xenopus tropicalis]
MMWEFRSFAFWRAIFAEFFATMFYVFFGLGASLKWAAGPANVLNI
>NP_001107728.1 aquaporin-8 [Xenopus tropicalis]
MGLYHYKEMADVEEKKEPEMEKKDPEAGGKEEAVDISPH
>NP_001135583.1 uncharacterized protein LOC100216133 [Xenopus tropicalis]
MTAFKGIWTRQFWTSMAGEFLAVFLFLVVSLGSTAGITIPGPSETHIALCFGFSIAILIHCFGHIC
当我们只想要保留序列的名称时,可以使用命令:
awk '{print $1}' pep.fasta > pep.deal.fasta
通过上面的命令,pep.fasta被处理保存为pep.deal.fasta,处理后的文件内容如下:
>NP_001016845.1
MGRQKDFINKCNQLLRLRNKLLRQALSECLGTLILVMFGCGSVAQ
>NP_001090816.1
MMWEFRSFAFWRAIFAEFFATMFYVFFGLGASLKWAAGPANVLNI
>NP_001107728.1
MGLYHYKEMADVEEKKEPEMEKKDPEAGGKEEAVDISPH
>NP_001135583.1
MTAFKGIWTRQFWTSMAGEFLAVFLFLVVSLGSTAGITIPGPSETHIALCFGFSIAILIHCFGHIC
日常记录,如有纰漏,敬请指正。