RNA-seq与miRNA-seq联合分析

最新推荐文章于 2024-05-23 09:39:52 发布

wangyunpeng_bio

最新推荐文章于 2024-05-23 09:39:52 发布

阅读量2w

点赞数 10

本文链接：https://blog.csdn.net/qq_29300341/article/details/74134083

版权

分析流程专栏收录该内容

16 篇文章 25 订阅

订阅专栏

RNA-seq miRNA-seq联合分析

背景知识

肝癌细胞经常会入侵门静脉系统，从而导致门静脉癌栓，但是还没有一个详尽的研究来讨论其中的作用机制，因此需要对肝癌组织(tumor)，门静脉组织(PVTT)，癌旁组织(normal)进行采样分析。

数据来源

数据来源于2017年5月24日清华大学更新的miRNA-seq,DNA methylation, CNV, RNA-seq

项目标题：The molecularlandscape of hepatocellular carcinoma with portal vein tumor thrombosis

实验设计：

提取了来自20个中国肝癌患者的肿瘤组织，门静脉组织和癌旁组织，共计60个样本，分别对其进行miRNA-seq，甲基化分析，拷贝数变异分析和RNA-seq分析。

数据下载网址：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE77276

RNA-seq数据分析

数据预处理

由于此数据原始数据sra太大，没有表达矩阵，提供了测序序列reads经过标准化以后，在每个基因上的数目(normalized_count)，将各个样本reads count文件合并就可以得到表达矩阵。

差异表达基因筛选

根据文献所述，使用R包DESeq2筛选差异表达基因，DESeq2使用负二项分布产生的线性模型，具体原理可见如下网址

http://www.bioconductor.org/packages/release/bioc/vignettes/DESeq2/inst/doc/DESeq2.html#theory-behind-deseq2

分组方式：源数据为肝癌组织(tumor)，门静脉组织(PVTT)，癌旁组织(normal)，然而由于门静脉组织也属于病变组织的一种，可以和tumor划分为一类

最终在pvalue<0.001的条件下筛选出5676个差异表达基因，具体可以参见文件condition_treated_results.txt。

聚类热图

对前20个差异表达基因绘制聚类热图，可以发现normal和tumor明显分开，这说明DESeq2找出来的差异表达基因还是蛮不错的。

图表 1聚类热图

深度分析

为了进一步探索数据和结果，绘制MA-plot，横坐标为每个基因上reads的数目(标准化后)；纵坐标为log2fold change，即变化的程度；每个点就是一个基因，红色小点为pvalue<0.001的基因；只绘制了log2foldchange在(-3,+3)以内的基因，即改变程度在(0.125,8)倍的基因，对于不在此范围内的基因，用三角形的标志画在边界线上。

图表 2MA-plot

可以从图中看出来，黑色部分大致形成一个三角形，而红色部分（差异表达基因）包裹在黑色三角形外围。这说明用DESeq2的负二项分布模型找出来的差异表达基因，大部分都是reads数目多（测序深度高），且表达量差异很大的基因。

接下来绘制某一基因在不同组织的表达量。选取p值最小的那个基因

图表 3某一基因的表达量

PVTT和tumor在差异表达基因筛选的时候合为两组，此时绘图的时候仍然将它们分开。可以看到ENSG00000077152在normal和PVTT+tumor间表达量明显不同。

再接下来可以进行主成分分析，对整个表达矩阵计算主成分，然后选取前面两个主成分绘制PCA图，可以看见PCA1代表了原本36%的信息量，PCA2代表了原本10%的信息量，然后normal和其他两类比较能分得开，比起之前那次作业芯片数据，这次的紧致性要好得多。

图表 4PCA图

miRNA-seq数据分析

数据处理过程和上面的RNA-seq一样，把代码切换一下目录就成。

在2578个miRNA中，共有199个差异表达(pvalue<0.001)，绘制MA-plot发现上调的居多，

图表 5MA-plot

接下来，也对差异表达的部分做了聚类热图，发现对于差异表达的部分，两组确实分得挺开的。

图表 6聚类热图

接下来也挑了p值最小的miRNA绘制reads count图，发现两组之间的差异确实蛮明显的。

图表 7p值最小miRNA

最后，进行了主成分分析，绘制PCA图，紧致性不如上面的RNA-seq，应该是前两个PCA代表的信息太少的缘故，第一主成分只有代表源数据19%的信息，第二主成分代表17%的信息，俩主成分加起来才有刚刚一个主成分那么多信息（RNA-seq第一主成分就有36%）。

图表 8PCA图

联合分析

MAGIA（miRNA和基因整合分析）是一个进行靶预测、miRNA和基因表达数据整合分析的新的网络工具。接下来，使用magia进行miRNA与基因相互作用的联合分析。

网址：http://gencomp.bio.unipd.it/magia/analysis/

Step1

由于miRNA-seq和RNA-seq是来源相同的配对数据，而且样本数有60个。联合分析算法选择MATCHED:Mutual Information

MATCHED: Mutual Information: a classicinformation measure quantifying the mutual dependence of variables, includingnon-linear relationships. Suitable for large sample size (>20 needed).

Step2

接下来的预测方式选择Pita和miRanda的交集

Pita score filter:-10 Miranda score filter:500（都是默认值）

Step3

接下来将上面分析出来的差异表达矩阵分别上传，分析即可。下面就是绘制出来的相互作用网络图。

图表 9相互作用网络

红色三角形为miRNA，绿色圆形为基因。

红色圈圈是看上去连线比较多的几个miRNA，比较重要，名字分别是：hsa-miR-760、hsa-miR-1303 、hsa-miR-671-5p、hsa-miR-324-3p、hsa-miR-423-3p

还能做出来相互作用(interaction)的程度，下载为tsv文件，

就是一张包含了MicroRNA、Gene Symbol、MutualInformation的表，Mutual Information指互信息，是信息论里一种有用的信息度量，它可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。

也就是说，在这里MutualInformation就可以看做两者的相关程度。

就比如在下图表的截图中可以看出来，hsa-mir-1303和其对应的靶基因DBF4B、hsa-mir-501-5p和其对应的靶基因KIF2C就有很强的相关性。

图表 10相互作用表

GO注释

使用Gene Ontology官网上的在线注释功能即可，输入刚刚相互作用网络interactions.tsv文件中的基因名，进行biologicalprocess(生化反应),molecularfunction(分子功能),cellularcomponent(细胞定位)三方面的富集分析，通过富集分析可以找出在统计上显著富集的GO Term，这些富集的条目有可能与研究的目前有关。

图表 11biological process

图表 12molecular function

图表 13cellular component

看上去确实有一些相关的富集条目，比如分子功能:染色体绑定(chromatin binding)；生化过程:有丝分裂过程(mitotic cell cycle)；细胞定位:染色体部位(chromosomal part)，这些都和癌症细胞的产生有着重要关系。

结语

本次实验使用的是配对的miRNA和mRNA表达谱文件，这给了我们一个通过生物信息学工具构建miRNA-mRNA相互作用网络的好机会，在系统层次的分析表明，我们找到了许多的重要miRNA和mRNA，这些对于肝癌起始和发展的过程中起着重要作用。这个全局的“miRNA-mRNA相互作用网络”对于筛选miRNA靶基因和发现新的治疗靶标有着重要意义。