如果大家对go和kegg等功能数据库注释有一定了解,就应该是知道kegg其实里面就记录各个物种不到一半的蛋白编码基因功能,比如人类, 约2万个蛋白编码基因,也就七千多个是有kegg功能注释的。其它物种就更是惨不忍睹,没有那么多科研经费投入进去,实际上对它们的基因功能就无从得知!
不过,哪怕是对人类来说,kegg注释的也仅仅是蛋白编码基因,但是如果你了解人类gtf文件,就应该是知道,里面有6万左右的基因,如果我们的差异分析,定位到了 lncRNA,假基因,miRNA的基因,其实就不能直接进行功能数据库注释。我们以miRNA为例,
每个miRNA都是可以靶向调控数百甚至数千个蛋白编码基因,所以我们如果要对miRNA进行go和kegg等功能数据库数据库注释,就需要以靶向调控为桥梁。前面我们介绍了两次关于miRNA的靶向基因的查询工具,分别是:
- microRNAs靶基因数据库哪家强
- 使用miRNAtap数据源提取miRNA的预测靶基因结果
而且我们也多次讲解了go和kegg等功能数据库数据库注释,见:
- 从基因名到GO注释一步到位
- 3大在线分析工具:Enrichr、WebGestalt、gprofiler与R包clusterprofiler的比较
所以,理论上你能够查询到miRNA的靶向基因,就可以用靶基因作为桥梁去进行数据库注释啦!当然,如果你不想看这个中间过程&#