做lncRNA生信分析的同学都知道,想要了解lncRNA的功能,就要找到lncRNA的靶基因(ceRNA套路除外),而共表达分析就是预测lncRNA靶基因的一种常用方法。
Co-LncRNA数据库是通过共表达分析预测lncRNA的靶基因,并通过对靶基因进行GO/KEGG富集分析,来阐释lncRNA的生物学功能,为进一步机制研究提供依据。
Co-LncRNA收集了来自28个人体组织/细胞系、共29012例样本的RNA-seq数据,包括来自TCGA的133个数据集和来自GEO的108个数据集。数据库还可以连接至GEO、Ensembl、UCSC等网站。
数据库网址:http://bio-bigdata.hrbmu.edu.cn/Co-LncRNA/
使用该数据时注意引用文献:Zhao Z, Bai J, Wu A, et al.Co-LncRNA: investigating the lncRNA combinatorial effects in GO annotations and KEGG pathways based on human RNA-seq data. Database (Oxford). 2015;2015:bav082. doi:10.1093/database/bav082
先来三张图宏观了解一下这个数据库
功能模块演示
下面对数据库的6个主要功能模块进行逐一演示。
1. CEGs模块
CEGs代表共表达基因(Co-Expressed Genes),通过该模块可筛选与单个lncRNA共表达的基因。
示例如图4,通过选择一个特定的数据集,输入lncRNA名称(输入格式包括Ensembl ID和gene symbol两种),选择共表达分析的方法(该网站提供线性回归和Spearman相关两种分析方法),设置相关系数和P值后,点击go即可得到右侧的结果界面。
结果中展示了与输入的lncRNA共表达的mRNA以及相关系数、P值等信息,单击“pattern”下方的图形可显示lncRNA与该mRNA的散点图,图片提供PNG和PDF两个下载格式。
此外,如果在“search by”处选择mRNA,筛选的结果则是与该编码基因共表达的lncRNA。
2. CEGsFuncs模块:
该模块可对单个或多个lncRNA共表达的mRNA进行GO/KEGG富集分析。
示例如图5所示,①-④的设置与CEGs模块相同,可以⑤处选择GO/KEGG富集分析功能,并设置⑥中的P值。
以KEGG富集分析为例,结果界面展示在右侧,点击“#Overlap”下方对应的数字可显示富集到该通路上的CEGs(⑨),点击通路名称(如图中“hsa04110”),可展示该完整通路,与不同的lncRNA共表达的CEGs用不同颜色标记(⑪)。
①选择数据集;②选定数据集的简介;③选择输入基因类型;④输入基因名,选择分析方法,设定阈值;⑤选择GO/KEGG;⑥设置富集分析的P阈值;⑦示例数据;⑧帮助;⑨展示富集到某一KEGG通路上的CEGs;⑩“hsa04110”通路图;⑪lncRNA列表;⑫TUG1(ENSG00000253352) CEGs;⑬MALAT1(ENSG00000251562) CEGs;⑭TUG1(ENSG00000253352)和 MALAT1(ENSG00000251562) CEGs
3. merge CEGsFuncs模块:
相比于CEGsFuncs模块,该模块可以允许多个数据集进行合并分析,以减小不同数据集对lncRNA共表达基因的影响。
除第一步选择数据集时可以进行多选之外,其余操作与与CEGsFuncs模块相同。
选择多个数据集时通过按住shift或者ctrl进行操作。
4. CEGsNet模块:
该模块可以将与单个或者多个lncRNA共表达的mRNA进行可视化。
以多基因列表为例(图7),选定要分析的数据集,输入lncRNA列表,选择分析方法,设置相关系数和P值后,点击go即可得到右侧的结果界面,可以点击右上角的图标对图片进行缩放和移动,但不足之处是图片不能下载。
①选择数据集;②选定数据集的简介;③输入基因列表,选择分析方法,设定阈值;④示例数据;⑤帮助;⑥lncRNA TUG1(ENSG00000253352);⑦lncRNA MALAT1(ENSG00000251562);⑧TUG1(ENSG00000253352) CEGs;⑨MALAT1(ENSG00000251562) CEGs;⑩TUG1(ENSG00000253352)和MALAT1(ENSG00000251562) CEGs
5. Analyse your data模块
如果你所研究的数据集没有被Co-LncRNA数据库收录,那么可以通过该模块上传自己的lncRNA和mRNA表达矩阵,进行共表达分析和富集分析。
通过图中①②步上传两个表达矩阵,矩阵的具体格式如⑪⑫,通过设置③-⑦的参数得到想要的结果,如⑬⑮所示,共表达和富集分析一步到位。
做生信分析的同学都知道,无论是使用R语言还是数据库,输入文件的格式非常重要,格式不对将会报错。
①上传lncRNA表达矩阵;②上传mRNA表达矩阵;③选择共表达分析方法;④设置回归/相关系数;⑤设置P值;⑥选择CEGs合并方式;⑦选择GO/KEGG;⑧设置富集分析P值;⑨示例数据;⑩说明;⑪lncRNA表达矩阵的输入格式;⑫mRNA表达矩阵的输入格式;⑬共表达分析结果;⑭相关性散点图;⑮富集分析结果;⑯“hsa05212”通路图
6. Download模块
介绍到这里,如果你对这个数据库前面的功能不太满意(比如分析结果不可下载、可视化做得不好等),那么请直接来到这一模块。
对于数据库收录的241个数据集,该模块可提供下载功能,下载的内容包括每个数据集的mRNA表达谱、lncRNA表达谱以及共表达分析结果,下载后的数据可以通过R语言或者其他工具进行进一步分析及可视化。
如果正好包括你所研究的数据集,那简直太方便了,相当于数据库已经分析好了打包放在那里,你来下载就可以啦。
数据库还有一个ID Converter模块,可以进行基因ID的批量转换,包括Ensembl ID、gene symbol、Entrez Gene三种,从此以后又多了一个可以转换基因ID的工具啦!
文献示例
目前利用Co-lncRNA数据库发表的文章并不多,这篇文章发表在《ORAL ONCOLOGY》(IF 3.73),作者研究的肿瘤是口腔癌,将分析得到的两个lncRNA放到了Co-lncRNA数据库做了功能富集,并将其中涉及的部分信号通路进行了可视化,这里用到的是CEGsFuncs模块的功能(图12)。
小结
好啦,最后总结一下,Co-LncRNA数据库可以对单个或者多个lncRNA进行共表达分析及GO/KEGG富集分析,并进行一定程度的可视化,还支持上传自己的数据进行分析,是一个傻瓜式操作的lncRNA功能注释的网站。数据库提供示例数据,赶紧去实操一波吧!
本文首发于“ 挑圈联靠”微信公众号
转载请注明:解螺旋·临床医生科研成长平台