eggNOG注释蛋白序列

下载软件(其实就是一堆脚本)

git clone https://github.com/jhcepas/eggnog-mapper.git

下载数据库

alias python=/usr/bin/python2.7
python download_eggnog_data.py 

拆分蛋白文件xx.faa

awk '!/^>/ { printf "%s", $0; n = "\n" } 
/^>/ { print n $0; n = "" }
END { printf "%s", n }
'  /mnt/10t/mzy/dairycow/04.GeneCatelog/uniqGeneSet.faa >uniqGeneSet.faa #把多行显示的fasta文件转换成单行显示 
grep -c ">" uniqGeneSet.faa
grep -c $'\n' uniqGeneSet.faa  #数一下换行符是不是刚好是序列数的2倍
split -l 6000000 -a 3 -d uniqGeneSet.faa input_file.chunk_ #-l行数;-a表示数字的位数;-d表示待拆分的文件

生成所有命令,切换python版本蛮头疼的,直接指定python程序

for f in *.chunk_*; do echo /usr/bin/python2.7 /mnt/10t/eggnog-mapper/emapper.py -m diamond --no_annot --no_file_comments --cpu 16 -i $f -o $f >>1.sh; done
cat 1.sh | sed ':label;N;s/\n/ \&\& /;b label'>>2.sh
nohup bash 2.sh &

我发现用下面的命令运行,效果更爽
for f in *.chunk_*; do nohup /usr/bin/python2.7 /mnt/10t/eggnog-mapper/emapper.py -m diamond --no_annot --no_file_comments --cpu 36 -i $f -o $f & done

合并生成的seed文件

cat *.chunk_*.emapper.seed_orthologs > input_file.emapper.seed_orthologs

开始注释(这个脚本是32个python一起运行,老壮观了)

/usr/bin/python2.7 /mnt/10t/eggnog-mapper/emapper.py --annotate_hits_table input_file.emapper.seed_orthologs --no_file_comments -o annotation --cpu 32

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值