预测完ORF序列、去冗余并建立丰度表后,我们得到了预测基因的非冗余序列(核酸+蛋白),接下来要利用eggNOGmapper注释结果,按照国际惯例,我们利用蛋白序列注释。
首先下载eggNOGmapper
git clone https://github.com/jhcepas/eggnog-mapper.git
在所在目录里就下好了这个软件,不需要安装,都是脚本
接下来,把python修改成2.7版本的,3的不能干
whereis python #找到2.7的路径
alias python='/usr/bin/python2.7'
python --version
利用脚本下载eggNOG数据库,文件会被下载到这个脚本所在的目录下的data目录中,后面不用专门指定位置
python /mnt/10t/eggnog-mapper/download_eggnog_data.py
将待注释文件拆分
split -l 2000000 -a 3 -d /mnt/10t/mzy/dairycow/04.GeneCatelog/uniqGeneSet.faa input_file.chunk_
准备好所有运行的命令,因为这个脚本是2.7写的,指定下2.7喽
for f in *.chunk_*; do
echo /usr/bin/python2.7 /mnt/10t/eggnog-mapper/emapper.py -m diamond --no_annot --no_file_comments --cpu 10 -i $f -o $f >>1.sh;
done
nohup bash 1.sh & #后台运行命令
生成2类文件:seed_orthologs和annotations文件
cat *.chunk_*.emapper.seed_orthologs > input_file.emapper.seed_orthologs
emapper.py --annotate_hits_table input.emapper.seed_orthologs --no_file_comments -o output_file --cpu 10