给序列名加个计数的小脑袋

最新推荐文章于 2022-11-18 23:28:30 发布

马志远的生信笔记

最新推荐文章于 2022-11-18 23:28:30 发布

阅读量218

点赞数

分类专栏：序列数据处理 Linux

本文链接：https://blog.csdn.net/weixin_42480153/article/details/109462760

版权

序列数据处理同时被 2 个专栏收录

35 篇文章 8 订阅

订阅专栏

Linux

30 篇文章 1 订阅

订阅专栏

某些情况下，一个fa文件中的序列名会有重复，为了避免重复名称带来的困扰，在序列名前/后加个序号也是很常见的手段。

原来的文件

>MAG1
VIAKLEEKPTEPSETDPTEPSETDPTEPSETDPTEPPAPSSDPTEPEPSDPEPSSDPTEP
EPSDPEPSSDPEPEPEPSEGGDD*
>MAG1
MKRERSLALVLSFDTTAAAMETERICGEAGIPGRLFPLPRQLSSDCGIAWASDPADRPRL
EALAAAGRIEPAAMTELLL*
>MAG1
MKKWFRDNWLLLLTGLIVGLAALILAKLGNPGNMGFCIACFERDIAGALGLHGAEAVQYF
RPEIVGIVLGSLIAALCFREFKGKGGSSPFLRLILGMLVMIGALIFLGCPLRMVIRIGGG
DLNAVVGLLGFIVGILIGVVFLKKGFTLGRAYAQTRAEGAAFPALLALAFLLSATGLVGL

加了小脑袋的文件

>1_MAG1
VIAKLEEKPTEPSETDPTEPSETDPTEPSETDPTEPPAPSSDPTEPEPSDPEPSSDPTEP
EPSDPEPSSDPEPEPEPSEGGDD*
>2_MAG1
MKRERSLALVLSFDTTAAAMETERICGEAGIPGRLFPLPRQLSSDCGIAWASDPADRPRL
EALAAAGRIEPAAMTELLL*
>3_MAG1
MKKWFRDNWLLLLTGLIVGLAALILAKLGNPGNMGFCIACFERDIAGALGLHGAEAVQYF
RPEIVGIVLGSLIAALCFREFKGKGGSSPFLRLILGMLVMIGALIFLGCPLRMVIRIGGG
DLNAVVGLLGFIVGILIGVVFLKKGFTLGRAYAQTRAEGAAFPALLALAFLLSATGLVGL

首先看下有多少条蛋白序列：grep -c ">" test，返回结果是12664861

以下步骤加小脑袋

for i in {1..12664861};do sed -i ':a;N;$!ba;s/>/&'"$i_"'/'"$i" test; done

以上方法挺麻烦，给你个最佳方案，seqkit

seqkit rename all.faa > rename.faa