使用awk命令去掉fasta文件中序列名称后的注释信息

最新推荐文章于 2024-07-18 17:51:14 发布

水老鸦

最新推荐文章于 2024-07-18 17:51:14 发布

阅读量911

点赞数 1

文章标签： linux

本文链接：https://blog.csdn.net/a1996q/article/details/129947566

版权

今天记录一个处理fasta文件的小知识，我们经常需要处理fasta文件的序列名称，有时候需要去掉序列名称后的注释信息，这时候可以用awk命令进行处理。
例如，我们有一个fasta格式的蛋白序列文件，文件名称为pep.fasta，内容如下：

>NP_001016845.1 aquaporin-3 [Xenopus tropicalis]
MGRQKDFINKCNQLLRLRNKLLRQALSECLGTLILVMFGCGSVAQ
>NP_001090816.1 lens fiber major intrinsic protein [Xenopus tropicalis]
MMWEFRSFAFWRAIFAEFFATMFYVFFGLGASLKWAAGPANVLNI
>NP_001107728.1 aquaporin-8 [Xenopus tropicalis]
MGLYHYKEMADVEEKKEPEMEKKDPEAGGKEEAVDISPH
>NP_001135583.1 uncharacterized protein LOC100216133 [Xenopus tropicalis]
MTAFKGIWTRQFWTSMAGEFLAVFLFLVVSLGSTAGITIPGPSETHIALCFGFSIAILIHCFGHIC

当我们只想要保留序列的名称时，可以使用命令：

awk '{print $1}' pep.fasta > pep.deal.fasta

通过上面的命令，pep.fasta被处理保存为pep.deal.fasta，处理后的文件内容如下：

>NP_001016845.1
MGRQKDFINKCNQLLRLRNKLLRQALSECLGTLILVMFGCGSVAQ
>NP_001090816.1
MMWEFRSFAFWRAIFAEFFATMFYVFFGLGASLKWAAGPANVLNI
>NP_001107728.1
MGLYHYKEMADVEEKKEPEMEKKDPEAGGKEEAVDISPH
>NP_001135583.1
MTAFKGIWTRQFWTSMAGEFLAVFLFLVVSLGSTAGITIPGPSETHIALCFGFSIAILIHCFGHIC

日常记录，如有纰漏，敬请指正。

水老鸦

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
使用awk命令去掉fasta文件中序列名称后的注释信息

今天记录一个处理fasta文件的小知识，我们经常需要处理fasta文件的序列名称，有时候需要去掉序列名称后的注释信息，这时候可以用awk命令进行处理。日常记录，如有纰漏，敬请指正。
复制链接

扫一扫