RNA-seq与miRNA-seq联合分析

RNA-seq miRNA-seq联合分析

背景知识

肝癌细胞经常会入侵门静脉系统,从而导致门静脉癌栓,但是还没有一个详尽的研究来讨论其中的作用机制,因此需要对肝癌组织(tumor),门静脉组织(PVTT),癌旁组织(normal)进行采样分析。

数据来源

数据来源于2017年5月24日清华大学更新的miRNA-seq,DNA methylation, CNV, RNA-seq

项目标题:The molecularlandscape of hepatocellular carcinoma with portal vein tumor thrombosis

实验设计:

提取了来自20个中国肝癌患者的肿瘤组织,门静脉组织和癌旁组织,共计60个样本,分别对其进行miRNA-seq,甲基化分析,拷贝数变异分析和RNA-seq分析。

数据下载网址:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE77276

RNA-seq数据分析

数据预处理

由于此数据原始数据sra太大,没有表达矩阵,提供了测序序列reads经过标准化以后,在每个基因上的数目(normalized_count),将各个样本reads count文件合并就可以得到表达矩阵。

差异表达基因筛选

根据文献所述,使用R包DESeq2筛选差异表达基因,DESeq2使用负二项分布产生的线性模型,具体原理可见如下网址

http://www.bioconductor.org/packages/release/bioc/vignettes/DESeq2/inst/doc/DESeq2.html#theory-behind-deseq2

分组方式:源数据为肝癌组织(tumor),门静脉组织(PVTT),癌旁组织(normal),然而由于门静脉组织也属于病变组织的一种,可以和tumor划分为一类

最终在pvalue<0.001的条件下筛选出5676个差异表达基因,具体可以参见文件condition_treated_results.txt

聚类热图

对前20个差异表达基因绘制聚类热图,可以发现normal和tumor明显分开,这说明DESeq2找出来的差异表达基因还是蛮不错的。

图表 1聚类热图

深度分析

为了进一步探索数据和结果,绘制MA-plot,横坐标为每个基因上reads的数目(标准化后);纵坐标为log2fold change,即变化的程度;每个点就是一个基因,红色小点为pvalue<0.001的基因;只绘制了log2foldchange在(-3,+3)以内的基因,即改变程度在(0.125,8)倍的基因,对于不在此范围内的基因,用三角形的标志画在边界线上。

图表 2MA-plot

可以从图中看出来,黑色部分大致形成一个三角形,而红色部分(差异表达基因)包裹在黑色三角形外围。这说明用DESeq2的负二项分布模型找出来的差异表达基因,大部分都是reads数目多(测序深度高),且表达量差异很大的基因。

 

接下来绘制某一基因在不同组织的表达量。选取p值最小的那个基因

图表 3某一基因的表达量

PVTT和tumor在差异表达基因筛选的时候合为两组,此时绘图的时候仍然将它们分开。可以看到ENSG00000077152在normal和PVTT+tumor间表达量明显不同。

 

再接下来可以进行主成分分析,对整个表达矩阵计算主成分,然后选取前面两个主成分绘制PCA图,可以看见PCA1代表了原本36%的信息量,PCA2代表了原本10%的信息量,然后normal和其他两类比较能分得开,比起之前那次作业芯片数据,这次的紧致性要好得多。

图表 4PCA图

miRNA-seq数据分析

数据处理过程和上面的RNA-seq一样,把代码切换一下目录就成。

在2578个miRNA中,共有199个差异表达(pvalue<0.001),绘制MA-plot发现上调的居多,


图表 5MA-plot

接下来,也对差异表达的部分做了聚类热图,发现对于差异表达的部分,两组确实分得挺开的。

图表 6聚类热图

接下来也挑了p值最小的miRNA绘制reads count图,发现两组之间的差异确实蛮明显的。

图表 7p值最小miRNA

最后,进行了主成分分析,绘制PCA图,紧致性不如上面的RNA-seq,应该是前两个PCA代表的信息太少的缘故,第一主成分只有代表源数据19%的信息,第二主成分代表17%的信息,俩主成分加起来才有刚刚一个主成分那么多信息(RNA-seq第一主成分就有36%)。

图表 8PCA图

联合分析

MAGIA(miRNA和基因整合分析)是一个进行靶预测、miRNA和基因表达数据整合分析的新的网络工具。接下来,使用magia进行miRNA与基因相互作用的联合分析。

网址:http://gencomp.bio.unipd.it/magia/analysis/

Step1

由于miRNA-seq和RNA-seq是来源相同的配对数据,而且样本数有60个。联合分析算法选择MATCHED:Mutual Information

MATCHED: Mutual Information: a classicinformation measure quantifying the mutual dependence of variables, includingnon-linear relationships. Suitable for large sample size (>20 needed).

Step2

接下来的预测方式选择Pita和miRanda的交集

Pita score filter:-10 Miranda score filter:500(都是默认值)

Step3

接下来将上面分析出来的差异表达矩阵分别上传,分析即可。下面就是绘制出来的相互作用网络图。

图表 9相互作用网络

红色三角形为miRNA,绿色圆形为基因。

红色圈圈是看上去连线比较多的几个miRNA,比较重要,名字分别是:hsa-miR-760、hsa-miR-1303 、hsa-miR-671-5p、hsa-miR-324-3p、hsa-miR-423-3p

还能做出来相互作用(interaction)的程度,下载为tsv文件

就是一张包含了MicroRNA、Gene Symbol、MutualInformation的表,Mutual Information指互信息,是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。

也就是说,在这里MutualInformation就可以看做两者的相关程度。

就比如在下图表的截图中可以看出来,hsa-mir-1303和其对应的靶基因DBF4B、hsa-mir-501-5p和其对应的靶基因KIF2C就有很强的相关性。


图表 10相互作用表

GO注释

使用Gene Ontology官网上的在线注释功能即可,输入刚刚相互作用网络interactions.tsv文件中的基因名,进行biologicalprocess(生化反应),molecularfunction(分子功能),cellularcomponent(细胞定位)三方面的富集分析,通过富集分析可以找出在统计上显著富集的GO Term,这些富集的条目有可能与研究的目前有关。


图表 11biological process


图表 12molecular function


图表 13cellular component

看上去确实有一些相关的富集条目,比如分子功能:染色体绑定(chromatin binding);生化过程:有丝分裂过程(mitotic cell cycle);细胞定位:染色体部位(chromosomal part),这些都和癌症细胞的产生有着重要关系。

结语

本次实验使用的是配对的miRNA和mRNA表达谱文件,这给了我们一个通过生物信息学工具构建miRNA-mRNA相互作用网络的好机会,在系统层次的分析表明,我们找到了许多的重要miRNA和mRNA,这些对于肝癌起始和发展的过程中起着重要作用。这个全局的“miRNA-mRNA相互作用网络”对于筛选miRNA靶基因和发现新的治疗靶标有着重要意义。

  • 10
    点赞
  • 76
    收藏
    觉得还不错? 一键收藏
  • 10
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值