数据挖掘肿瘤预测_2020年最新非肿瘤miRNA干湿结合生信套路和相关数据库全总结,一看就会(强烈建议收藏)...

一直以来都传言肿瘤的生信文章容易发,但对非肿瘤来说就很不友好。各位小伙伴们,你们觉得是这样的吗?

其实非肿瘤有利有弊。弊端是数据集少且无临床数据可扒;利处是我们可以把肿瘤生信文章的套路运用到非肿瘤领域中实现降维打击。

今天分享一篇2020年5月发表在 PeerJ 上的纯生信文章,IF为2.353。查了一下期刊,影响因子还在上升。

4404c58e018f1bf62440f56f071b656f.png

首先我们来看看题目The biomarkers of key miRNAs and target genes associated with acute myocardial infarction,是一篇急性心肌梗死的文章,非肿瘤确认无疑。研究的分子类型是miRNA。

022f4a7e5205eb9a1392d9e69f7aeac3.png

拆解题目

老规矩我们先拆解题目。题目很规矩,包含两要素,疾病和问题。疾病,急性心肌梗死;问题,揭示潜在的分子标志物。此外,我们还要关注的是此文的目标分子是miRNA。

生信文章中,除了基本的功能基因mRNA,以miRNA,lncRNA作为研究类型的生信文章也有很多,与mRNA生信数据挖掘的套路类似,属于花样翻新。

紧接着,我们可以暂停片刻,想想如果我是作者我会怎么去论证。其实也还是那些套路,还是那些配方。不过值得我们注意的是这篇文章作者并不是全生信,也做了一些湿实验。干湿结合,省去了被reviewer怼没有实验验证的情况。纯生信文章总是会落下不做实验怎能发文章的诟病。如果干湿结合,会不会也能堵住一些人的嘴呢?(小伙伴们自己思考思考)。

好的,前面的话说了很多。我们开始上正菜。这篇文章包含两部分,干实验(Figure1-5;7;Table1-4)和湿实验(Figure6)。

干实验

Part1 挑

Figure1 ,作者选用了GSE24591和GSE31568两个数据集。分别做差异表达基因分析,即疾病组vs 正常组,并将结果可视化。

A图和B图即是可视化结果。文章结果采用的是火山图,筛选条件是LogFC绝对值大于1且p值小于0.05。

C图是A、B两图取交集的结果,共有8个miRNA,用韦恩图展示的结果。

怎么样,Figure1不难吧?当然,细心的小伙伴会发现,作者还把这8个miRNA用表列举了出来,即是Table2的结果。将挖掘出来的差异基因、关键信息进一步图表化、具体化,也是一种凑数据图表的方式,小伙伴们学到没有?

79c4083efda4c3e9aeace23373402703.png

432ecc902a203edb85ccf5d4c92a9794.png

关于这一部分,我们完全可以复现。我们选择NetworkAnalyst在线工具分析,控制logFC绝对值大于1且p值小于0.05,输出可以得到火山图和热图。具体操作细则,我们可以关注解螺旋生信全书上篇的段位1模块2第四节差异分析可视化工具部分,里面对NetworkAnalyst有很详细的介绍。

对于C图的结果,实则是韦恩图取交集的结果。这一部分,解螺旋也有涉及,详见挑圈联靠公众号“超详细讲解韦恩图作图,小白一看就能懂的绘图教程” 这一篇推文。关于韦恩图作图,这里推荐两个常用的网站jvenn(https://forgemia.inra.fr/genotoul-bioinfo/jvenn)和webtools(http://bioinformatics.psb.ugent.be/webtools/Venn/)。具体的作图教程可以参考公号之前的推文《超详细讲解韦恩图作图,小白一看就懂的绘图教程》

Part2 联

Figure2,如果目标分子是功能基因,那这一部分其实应该是功能聚类。但我们的研究对象是miRNA,所以这一步换位“联”。作者用miRNA预测靶基因,采用的是miRDB、RNA22、RNAhybird、TargetScan,并用Cytoscape将结果可视化。结果显示8个miRNA共有591个靶基因。同样,作者把结果用表格展示出来了,即Table3的结果。

4a635cbf2b89a8c47364f39d057191ac.png

7a22446f052b2f52437dd65e8440e5a2.png

miRNA预测靶基因的常用数据库总结:

1. TargetScan数据库http://www.targetscan.org/mamm_31/)TargetScan主要通过Total contextscore对检索结果进行评分,它代表所有位点context score 加和,数值越低,结合可能性越大。此外,TargetScan通过Aggregate Pct 对miR保守性进行估计,数值越高,结合可能性越大。

2. TarBase数据库(http://microrna.gr/tarbase/)是一个有实验支持的miR靶基因数据库;主要包括人、鼠、猿、鸡等多个物种的数据。

3. starbase数据库http://starbase.sysu.edu.cn/)(现在叫ENCORI)是中山大学开发的miR综合数据库,功能非常强大,提供包括23个物种的700多个datasets的CLIP-seq数据,100个datasets的降解组测序数据,32个癌种的RNA-seq数据,样本数超过10800个,信息量非常大。

4. miRWalk数据库http://zmf.umm.uni-heidelberg.de/apps/zmf/mirwalk2/ )是一个交叉预测网站,既可以通过miRNA预测靶基因,也可以通过gene预测与之结合的miRNA;不仅支持对一个miRNA或gene的预测,也支持多个miRNA或gene同时预测。这些数据库我们往往是将预测的靶基因取交集作为最后的结果。关于这一部分,解螺旋生信全书上篇段位3模块3miRNA交互作用第二节miRNA预测靶基因部分介绍的很详细,感兴趣的小伙伴们可以去看一看。

Part3 圈

Figure3,作者将Figure2中预测的591个靶基因拿来做功能聚类,即做GO/KEGG分析。GO分析工具为David,出的结果是柱状图,而KEGG分析采用是R包clusterProfiler,出的结果是气泡图。所有的结果展示的均是Top10的富集结果。

58bb837f0aa1a3a248287ec121aa723c.png

这一部分属于功能聚类,其实不光是DAVID可以做GO/KEGG分析,这里推荐几款比较好用的在线分析工具:

1. Metascape数据库(http://metascape.org/gp/index.html) 是提供基因注释和富集分析的门户网站,帮助生物学家理解一个或多个基因列表;可以作为大量基因背景调研和初步筛选的辅助工具。Metascape在首页说“它是一个超过DAVID的分析数据库”。它的优势主要体现在以下几个方面。如操作简单,新手更容易上手;结果呈现美观,报告下载方便;覆盖面广泛;在线;数据更新快;

2. WebGestalthttp://www.webgestalt.org/)支持12个物种,多种数据库和平台的354基因标识符,以及来自公共数据库和模型计算的321251个功能注释集。WebGestalt也可以分析来自公共其他数据库的基因名和实验数据,还可以进行磷酸激酶位点的富集分析。WebGestalt支持ORA、GSEA和NTA三种富集分析法。尤其是GSEA分析,可谓是良心出品。大大省去下载GSEA软件以及分析时经常报错的烦恼。但GSEA分析结果是黑白的,其实影响也不大。

Part4 联

Figure4,这一步,作者将Figure2中的591个靶基因作PPI网络分析,采用的是String在线工具,并用Cytoscape中的插件CytoHubba将结果可视化。结果展示了得分前10的关键分子,即Hub基因。同样,将10个关键基因用表格列举了出来。即为Table4的结果。

af8f995118a49d6f2d32617450f2fe17.png

4738f1ed3d3bf69ea8f3b5892450d8f8.png

Part5 圈

Figure5,“聚类分析”,即先获得的基因列表或基因表达矩阵,然后把具有相似功能的基因放到一起,和生物学表型相关联,对生物学功能/相关的通路或机制进行预测分析。针对Figure4中的Top10 genes做KEGG分析,和Figure3如出一辙。只不过作者采用的是Cytoscape和clusterprofiler包的R包进行分析,出的图是气泡图,非常直观。

135e7035b054a8ea4dd0260bcb4b5270.png

Part6 靠

Figure7,“靠”,即联系临床。作者在这里用的是ROC曲线。ROC曲线,可谓Biomaker的标配,可用SPSS绘制。初学者可以直接关注AUC数值。一般来说,AUC应大于0.5.若AUC在0.5~0.7,说明此指标诊断价值低;若AUC在0.7~0.9,说明此指标诊断价值中;若AUC在0.9~1,说明此指标诊断价值高。文章结果显示miR-24-1,AUC为0.964,诊断价值高。

关于Bomaker研究套路,具体细节可以看解螺旋蘑菇老师的Biomaker研究套路课。课程共7节,包含快速入门;课题设计;表达差异(图表格式、作图原则、分子筛猜、Prism实操);诊断标志;预测预后;多重标志。课程深入浅出,讲的很透彻,可以反复品尝和琢磨。

6a536b1e8add37c1bcf51348fa3ce7ae.png

5651bf224421ae08bcc80e746d05977a.png

以上就是干实验部分。包含“挑”、“圈”、“联”“靠”4部分,其中“圈”和“联”使用了2次。在这里,小编要继续拓展一下。其实,我们也可以做ceRNA机制,即根据miRNA分别预测lncRNA和mRNA,然后建立一个lncRNA-miRNA-mRNA的ceRNA调控网络。有兴趣的小伙伴不妨试试。这里补充根据miRNA预测lncRNA的常用数据库,如LncBase 。

LncBase数据库(http://carolina.imis.athena-innovation.gr/diana_tools/web/index.php?r=lncbasev2%2Findex)是DIANA-Tools数据库的一个版块,记录lncRNA与miRNA相互作用的数据库,目前最新版本为v2。分为实验证据支持和软件预测两部分。

湿实验

Figure6,细胞实验。验证8个miRNA在疾病组中高表达。总结来说,包含“模”“法”“标”三个部分

分组:急性心肌梗死vs 正常组模型:Dox诱导的心肌梗死细胞模型:检测方法,为RT-PCR:即八个miRNA

73a3f684c4482204ffd6a12def193503.png

好了,湿实验就结束了。到此,整篇文章也结束了。最后我们再来做个总结,文章属于干湿结合。干实验包含“挑”(Figure1)“圈”(Figure3,5)“联”(Figure2,4) “靠”(Figure7);湿实验包含细胞实验(Figure6)。怎么样,小伙伴们,整个思路都理清了吗?是不是我们也可以在自己的疾病中去模仿?赶快去自己的疾病中试试吧!

本文首发于“ 挑圈联靠”微信公众号(解螺旋生信频道)

转载请注明:解螺旋·临床医生科研成长平台。

已标记关键词 清除标记
表情包
插入表情
评论将由博主筛选后显示,对所有人可见 | 还能输入1000个字符
相关推荐
©️2020 CSDN 皮肤主题: 游动-白 设计师:白松林 返回首页