基因组规模上的聚合数据类型的相似性网络融合
摘要:
近期的技术已经使收集不同类型的全基因组数据十分划算,结合这些数据去创建一个给定的疾病或生物过程的一个全面视图的计算方法是有必要的。相似网络融合(SNF:similarity network fusion)通过创建每一个可利用的数据类型的样本(如,患者)的网络可以解决这个问题。例如,创建一个给定一群患者疾病的全面视图,SNF计算并融合分别来自于他们每一个数据类型的患者相似网络,目的是利用数据中的互补性。我们使用SNF去结合五种癌症数据集中的的mRNA表达,DNA甲基化和microRNA(miRNA)表达数据。SNF算法大大优于单一数据的分析与建立的综合方法,这个优势在识别肿瘤亚型和预测生存时是有效的。
一、SNF算法流程
图1.SNF步骤示例图
其中,图1a是来自同一类患者的mRNA表达和DNA甲基化;图1b是对于每一个数据类型的患者-患者相似度矩阵;图1c是患者-患者相似网络,节点代表患者,边代表一对患者间的相似度;图1d是网络融合过程,通过SNF算法迭代地通过其他网络的信息来升级每一个网络,使其每一步更相似;图1e是交互网络融合导致集合为最终融合网络,边的颜色表示数据类型已经贡献到给定的相似度。
二、SNF算法模型
2.1 网络权值(边)设置(患者相似度W(i,j))
假设有n个样本(例如,患者数据),m个测量值(例如,mRNA基因表型)。
G=(V,E) :患者相似度网络。顶点V表示患者{x1,x2,...,xn},边E是权重表示患者相似度。
ρ(i,j) :患者xi与患者xj的欧几里得距离
W(i,j) :患者xi与患者xj的相似度矩阵(n×n)
其中患者相似度W(i,j)使用比例指数相似核(scaled exponential similarity kernel)定义:
其中,μ是一个超参数,可以通过经验去设置,推荐设置的范围为[0.3,0.8];εij是用于消除缩放比例问题,这里定义εij为:
<