KEGG 通路信息下载及其相关处理

  1. KEGG数据下载
    打开kegg官网:
    http://www.genome.jp/kegg/catalog/org_list.html
    文件下载链接
    然后点击相应物种前面三个字母缩写位置进入下载界面:
    KEGG下载界面
    然后点击相应的格式进行下载,我们最常用的下载格式是htext
    下载到.keg 格式的文件
    我下载的是人的全部的KEGG文件,其文件名称为hsa00001.keg

  2. 文件探索
    2.1 初步看看各种通路信息

grep '^C' hsa00001.keg | tail

2.2 看看共有多少通路信息

 grep '^C' hsa00001.keg | grep "hsa" | wc
 #     370    2205   19727 
  1. 文件解析
    3.1 第一种解析
awk '$1=="C" &&$NF~"PATH:" || $1=="D"' hsa00001.keg | grep -P "PATH|\tK" | sed 's#^C[[:space:]]*##; s#^D[[:space:]]*##; s# \[#\t\[#; s# #\t#' | awk 'BEGIN{FS=OFS="\t"}{if($NF~"PATH:") a=$3"\t"$2;else print $1,a}' | awk 'BEGIN{FS=OFS="\t"}{a[$1]=a[$1]$2",";b[$1]=b[$1]"|"$3; next}END{for (i in a) print i,a[i],b[i]}' | sed 's#,\t|#\t#; s#\[PATH:#path:#g; s#\]##g' > KEGG_ath.txt

解析完成后文件储存在KEGG_ath.txt 文件中
head KEGG_ath.txt 即可看到下面的文件

解析完成的文件探索
第一列是 entrez genes ID, 第二列是path KEGG ID,第三列是通路的具体解释
3.2 第二种解析

perl -alne '{if(/^C/){/PATH:hsa(\d+)/;$kegg=$1}else{print "$kegg\t$F[1]" if /^D/ and $kegg;}}' hsa00001.keg >kegg2gene.txt
  1. 解析文件探索
head kegg2gene.txt
cut -f 1 kegg2gene.txt | sort -u | wc

参考文件:
http://www.bio-info-trainee.com/1188.html
http://shemy.site/2016/12/29/KEGG-2/

  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值