引言
GO分析早已是获得目标基因后的标准操作之一,网上攻略有很多,无论是web工具还是代码工具都很成熟。反正当你获得了一批基因(一般还是DEGs)后就可以做这个分析,给你的文章多几张美图,增色不少。GO分析确实已经成了生物信息文章的起手式,但这个分析绝对属于“大问题没有,小问题不断”的东西,这篇文章主要fix其中一个问题:结果的解释性。
一般来讲GO号本身就是注释,就是一个合理结果,表示目标基因在这个功能上富集吗。但是当你仔细观擦这些GO的基因组成的时候,你会发现他们居然相互交织重合。所以,当你仅仅罗列一张GO列表,里面涵盖的生物学方向、生物学成分大部分是重复的,这样给人的感官就不行。除非,你把每一条通路都放入数据库,比如rectome数据库中进行大类(上一级)注释,当然这一步骤可能需要手动来完成,那就太累了,我们根本没有那么多空余时间。
有没有什么手段把的到的GO进行自动归纳,整理成大的板块,然后解读呢。例如,当你得到很多炎症细胞GO,如果归纳起来,或者说进行聚类分析整理起来,然后再罗列成“炎症GO”,解读成,我们的目标基因就是和炎症相关的,这样文章得到了升华,也让审稿人觉得你是真的懂,而且比他还懂个。
R语言实现
第一部分:GO分析
数据准备:需要两列的数据框:基因名字和logFC-----------------------------------------------------------