《IDSSIM:基于改进的疾病语义相似度方法的lncRNA功能相似度计算模型》论文梳理

引用:
Fan W, Shang J, Li F, Sun Y, Yuan S, Liu JX. IDSSIM: an lncRNA functional similarity calculation model based on an improved disease semantic similarity method. BMC Bioinformatics. 2020 Jul 31;21(1):339.

  • 在一种改进的疾病语义相似度计算方法的基础上,提出了一种LncRNA功能相似度计算模型IDSSIM,其突出特点是在语义值计算中引入了信息量贡献因子,既考虑了疾病有向无环图的层次结构,又考虑了疾病的特异性。IDSSIM和LNCSIM1、LNCSIM2和ILNCSIM三种最新模型通过应用疾病语义相似度矩阵和lncRNA度功能相似矩阵,以及来自lncRNADisease数据库或MNDR数据库的人类lncRNA-疾病关联的对应矩阵,应用于用于lncRNA-疾病关联预测的关联预测方法WKNKN,对IDSSIM和三个最新模型(LNCSIM1、LNCSIM2和ILNCSIM)进行了评估。IDSSIM码、所有实验数据和预测结果都可以在https://github.com/CDMB-LAB/IDSSIM网站上找到。

**

关键词

**
lncRNA功能相似性、疾病语义相似性、lncRNA-疾病相关性

背景

  • 对于推测lncRNA的功能,一种简单而有效的方法是建立功能相似性计算模型,利用已知的功能和与特定疾病的关联来推断lncRNA-lncRNA的功能相似性。
    lncRNA功能相似性计算模型分为四类:
    (1)基于lncRNA表达谱
    (2)基于基因本体论(GO)术语
    (3)基于lncRNA与其他生物分子的相互作用
    (4)基于lncRNA-疾病关联

  • 提出了一种基于改进的疾病语义相似度方法的lncRNA功能相似度计算模型IDSSIM。改进的疾病语义相似度方法的亮点是在语义值计算中引入IC贡献因子,既考虑了DAG的层次结构,又考虑了疾病的特异性。使用受试者工作特征(ROC)曲线和曲线下面积(AUC)值的评价指标,在LNCSIM1、LNCSIM2和ILNCSIM三个最新模型上进行了IDSSIM实验,并与LNCSIM1、LNCSIM2和ILNCSIM三种最新模型进行了比较。结果表明,IDSSIM模型优于比较模型,能有效提高疾病语义相似度的准确性,从而提高模型的关联预测能力。

方法

LncRNA与疾病的关联

收集了两个包含人类lncRNA-疾病关联的矩阵,用于计算lncRNA功能相似性。在这两个矩阵中,每行代表一个lncRNA,每列代表一种疾病。如果lncRNA与疾病相关,则其相应的矩阵元素设置为1,否则设置为0。

疾病语义相似度
两种疾病之间的疾病语义相似度可以使用它们的DAG来计算,DAG是通过将两种疾病的名称映射到MeSH描述符来构建的。对于疾病A,其DAG可表示为DAGA={TA,EA},其中TA是A包括其自身的祖先节点的集合,EA是DAG中所有边的集合。DAGA中的疾病术语t∈TA对疾病A具有语义贡献,其被定义为t对疾病A的语义值
,并且可以通过以下公式在LNCSIM1中计算:
在这里插入图片描述
其中C(t)是t的子集,Δ是EA中连接t和t‘的边的语义贡献因子,通常设置为0.5。
LNCSIM2使用另一个公式来计算DAGA中的疾病术语t∈TA对疾病A的语义值的贡献。 在这里插入图片描述
其中D是MeSH中的疾病数量,Dags(t)是包含t的DAG的数量。
在IDSSIM模型中,我们利用LNCSIM1和LNCSIM2的优点,将DAGA中的疾病术语t∈TA对疾病A的语义值的贡献定义为,在这里插入图片描述
其中Pt为IC贡献因子,定义为,在这里插入图片描述
其中K是MeSH中所有疾病的集合。需要注意的是,对于疾病,其Pt值随不断更新的Mesh版本而变化。
然后,IDSSIM中疾病A的语义值的计算方法与LNCSIM1中的相同,即它是DAGA中所有疾病术语对疾病A的贡献之和。在这里插入图片描述
此外,基于两个疾病A和B在DAG中共享的疾病术语,以类似于LNCSIM1的方式定义了两个疾病A和B之间的疾病语义相似度,在这里插入图片描述
为了更好地理解疾病语义相似度的计算过程,在图1中给出了一个例子。首先,利用MeSH描述符构建胰腺肿瘤和肝脏肿瘤两种疾病的DAG图。胰腺肿瘤的DAG有4层8个病名,肝脏肿瘤的DAG有4层6个病名,其中4个病名是这两种疾病共有的。其次,使用所有疾病DAG计算D、DAG(t)和在这里插入图片描述
,并且语义贡献因子Δ也被设置为0.5[16,22]。我们可以看到,同一层中的疾病词语具有不同的贡献因子Δ+Pt,因此在每个DAG中对疾病的语义贡献
是不同的。第三,利用上述公式计算这两种疾病的语义值及其疾病语义相似度。从示例中我们可以看到,IDSSIM模型既考虑了DAG的层次结构,又考虑了疾病的特殊性。
IncRNA功能相似性
在IDSSIM模型中,计算lncRNA功能相似性的方法与文献[11,13,16]中描述的相同。文中举例说明了计算过程,如图2所示。
假设DG(u)和DG(v)分别是从人类lncRNA-疾病关联矩阵中收集的lncRNA
u和v的疾病组,则可以利用DG(u)和DG(v)中出现的疾病的语义相似性来计算u和v之间的lncRNA功能相似性。更具体地说,首先构建了疾病语义相似性子矩阵,其中行和列都表示DG(u)∪DG(v)中出现的疾病,每个元素都是对应疾病之间的疾病语义相似度。然后,将一个疾病组的疾病与另一个疾病组的疾病之间的相似度定义为,在这里插入图片描述
其中du和dv分别代表DG(u)和DG(v)中的一种疾病。接下来,将两个疾病组之间的相似性定义为,在这里插入图片描述
最后将u和v之间的lncRNA功能相似性定义为,在这里插入图片描述
其中|⋅|表示对应病种组中的病种数。在这里插入图片描述
图1 IDSSIM中疾病语义相似度计算示例 结果和讨论 性能评价
为了评估IDSSIM的性能,我们使用五倍交叉验证策略生成的ROC曲线和AUC值的评估指标,在lncRNADisease数据库和MNDR数据库上将其与LNCSIM1、LNCSIM2和ILNCSIM这三种最先进的模型进行了比较[13],并将其与LNCSIM1、LNCSIM2和ILNCSIM这三种最先进的模型在IncRNADisease数据库和MNDR数据库上进行了比较。
在这里插入图片描述
图2 IDSSIM中计算lncRNA功能相似度的示例

  • 具体地说,对于每个数据库,人类LncRNA-疾病关联的原始矩阵被随机分为五组,其中一项被改成0分,其他的保持不变。这五个变化的关联矩阵,以及每个比较模型的结果,即疾病语义相似矩阵和lncRNA功能相似矩阵,依次应用于关联预测方法WKNKN[23],得到五个人类lncRNA-疾病关联的预测矩阵。这里使用了WKNKN,因为它是最近提出的,声称可以促进关联预测,它的软件包可以在网上获得。对于人类lncRNA-疾病关联的原始矩阵中的改变组,其得分等于1的关联被认为是观察到的阳性,否则被认为是观察到的阴性。对于人类LncRNA-疾病关联的每个预测矩阵中的变化组,其得分高于阈值的关联被认为是预测阳性,否则被认为是预测阴性,其中阈值被设置为变化组中的预测得分,并按降序排列。因此,对于每个预测的人类lncRNA疾病关联矩阵,可以用不同的阈值获得它们的真阳性率(TPR)和假阳性率(FPR)。为减少随机分组带来的误差,每个对照模型重复5次交叉验证10次,用TPR和FPR的平均值绘制ROC曲线,计算AUC值。

  • 比较模型在LncRNA疾病数据库和MNDR数据库上的ROC曲线和AUC值如图3所示。可以看出,在ROC曲线和AUC值方面,IDSSIM在这两个数据库上的所有比较模型中表现最好。对于lncRNADisease数据库,IDSSIM的AUC值为0.8966,分别比LNCSIM1、LNCSIM2、ILNCSIM的AUC值高0.74、0.85、1.00%。同样,对于MNDR数据库,IDSSIM的AUC值为0.9302,分别比LNCSIM1、LNCSIM2和ILNCSIM的AUC值提高了0.51、0.22和0.35个百分点。实验结果表明,IDSSIM能够提供更准确的疾病语义相似度矩阵和lncRNA功能相似度矩阵。因此,基于这两个矩阵,可以进一步提高WKNKN等关联预测方法的性能。

在这里插入图片描述

  • 我们将IDSSIM生成的两个相似度矩阵,即疾病语义相似度矩阵和lncRNA功能相似度矩阵,以及它们对应的从lncRNADisease数据库或MNDR数据库下载的人类lncRNA-疾病关联矩阵,应用于关联预测方法WKNKN[23],得到了两个人类lncRNA-疾病关联预测矩阵。在这两个预测矩阵中,确定了几个潜在的lncRNA与疾病的关联,这可能有助于揭示疾病的潜在遗传机制,尽管它们还需要进一步的生物信息学研究和生物实验证实。在图4中,IDSSIM捕获的重要潜在的lncRNA-疾病关联被显示为网络。在每个网络中,蓝色和红色节点分别代表LncRNA和疾病,连接LncRNA和疾病的每条边代表捕获的显著潜在的LncRNA-疾病关联,其得分高于阈值m(LDA)+2⋅sd(LDA),其中LDA表示IDSSIM捕获的所有潜在的lncRNA疾病关联的分数,m(⋅)和sd(⋅)是它们的平均值和标准差。我们认为这两个网络可以为探索疾病的致病生物标志物提供重要线索。

在这里插入图片描述

案例研究

  • 基于LncRNADisease数据库中的人类LncRNA-疾病关联预测矩阵,使用另一种被关联预测模型广泛采用的常规案例研究评估方法[23,24]来验证IDSSIM的有效性。本研究以乳腺癌和腺癌两种疾病为研究对象。对于每种疾病,前20个预测的潜在lncRNA被记录下来,分别如表1和表2所示。在表格中,使用LncRNADisease(v2.0)数据库[25]、Lnc2Cancer数据库[26]和最近发表的文献逐一检查LncRNA以确认其是否与疾病有关。

在这里插入图片描述

表1预测的与乳腺癌相关的前20个潜在LncRNA

在这里插入图片描述

表2 Top20预测的与腺癌相关的潜在LncRNA
  1. 乳腺癌是威胁女性健康的最常见的恶性肿瘤之一,全世界每年约有50万人死于乳腺癌[27]。最近的进展表明,lncRNAs的失调与乳腺癌有关[28,29]。除了在lncRNADisease数据库中已知的lncRNAs与乳腺癌之间的关系外,我们还在表1中进一步预测了可能与乳腺癌相关的20个潜在的lncRNAs。其中8个已被LncRNADisease(v2.0)数据库和Lnc2
    Cancer数据库证实,4个已被文献报道与乳腺癌相关。Sarrafzadeh等人证明,仅在一小部分乳腺癌中检测到PCAT1的显著上调,并得出结论,PCAT1可能与部分乳腺癌的发病机制有关[30]。Ma等人宣布SNHG3通过miR-384/肝癌衍生生长因子轴在乳腺癌中促进细胞增殖和侵袭[31]。Wang等人发现MIR100HG是三阴性乳腺癌进展的原癌基因,它通过与p27位点的三链形成促进细胞增殖[32]。Silwal-Pandit等人研究表明,WRAP53蛋白的亚细胞定位对乳腺癌存活率有显著影响,因此有可能成为诊断和治疗的临床标记物[33]。
  2. 腺癌是一种恶性肿瘤,出现在人体的许多器官,如肺[34]、前列腺[35]、胃[36]、结肠[37]等。在表2预测的前20个潜在的lncRNAs中,有11个文献报道与腺癌相关。董等人研究表明,Gas5在肺腺癌组织中表达显著下调,可能成为诊断肺腺癌的潜在生物标志物[38]。Lee等人。发现HOTAIR参与了抑制细胞凋亡和促进侵袭的作用,支持HOTAIR在胃腺癌的发生和侵袭中的作用[39]。Tano等人的研究成果提示MALAT1通过影响运动相关基因的表达来增强肺腺癌细胞的运动能力[40]。Li等人证实MEG3通过AKT途径在肺腺癌细胞的增殖、侵袭和血管生成中起促进作用[41]。刘等人推测H19通过靶向miR-29b-3p和修饰STAT3促进肺腺癌细胞的存活和上皮-间充质转化[42]。林等人结论:CCAT1的过表达促进了肺腺癌从上皮到间质的转移[43]。蒋等人研究发现,PANDAR的表达增加促进了胰腺导管腺癌细胞的增殖,抑制了细胞的凋亡[44]。Xu等人提供了强有力的证据表明PVT1赋予食管腺癌侵袭性表型[45]。刘等人提示UCA1轴在胰腺导管腺癌的进展中起关键作用,可能成为新治疗的靶点[46]。Hu等人提示CCAT2可能通过竞争性结合miR-23b-5p在肺腺癌中作为竞争性内源性RNA调节FOXC1的表达[47]。卢等人提示DANCR可能是一种通过与miR-496直接结合来调节mTOR表达的致癌lncRNA,因此可作为肺腺癌的生物标志物或治疗靶点[48]。
  • 虽然还需要进一步的研究来证实上述发现,但根据案例研究,我们认为IDSSIM是一种很有前途的lncRNA功能预测模型,根据IDSSIM提供的线索进行生物学实验可以显著减少时间和成本。

在这里插入图片描述

  • 为了进一步验证IDSSIM的有效性,图5显示了四个比较模型的维恩图,每个元素可以写成|Lcon|/|Lall|,其中Lall表示所有相应模型预测的潜在的疾病相关的LncRNA,Lcon表示Lall中可以被数据库和文献证实与疾病相关的LncRNA,|⋅|表示Lall或Lcon的数量。可以看出,IDSSIM和WKNKN的组合比比较模型和WKNKN的其他组合可以预测更多已证实的疾病相关LncRNA。对于乳腺癌,IDSSIM预测总共有35个潜在的与疾病相关的LncRNA,其中16个已经得到确认。LNCSIM1、LNCSIM2和ILNCSIM的比例分别为15/35、14/30和14/34。同样,在腺癌中,IDSSIM、LNCSIM1、LNCSIM2和ILNCSIM的比例分别为18/33、18/33、16/30和6/13。

结论

  • LncRNA功能相似性计算模型在预测lncRNA功能和识别潜在的lncRNA与疾病的相关性方面起着重要作用。本文在一种改进的疾病语义相似度计算方法的基础上,提出了一种新的lncRNA功能相似度计算模型IDSSIM,其重点是在语义值计算中引入IC贡献因子,既考虑了DAG的层次结构,又考虑了疾病的特异性。为了评价IDSSIM的性能,采用ROC曲线和AUC值的评价指标,在lncRNADisease数据库和MNDR数据库上对三种最新模型LNCSIM1、LNCSIM2和ILNCSIM进行了对比实验。结果表明,IDSSIM模型优于比较模型,能有效提高疾病语义相似度的准确性,从而提高模型的关联预测能力。此外,还采用了乳腺癌和腺癌的案例研究。结果表明,IDSSIM预测的大多数潜在的与疾病相关的LncRNA都可以被数据库和文献证实,这意味着IDSSIM可以作为预测LncRNA的功能、识别潜在的LncRNA与疾病的关联以及预先筛选候选LncRNA进行生物学实验的一种很有前途的工具,这意味着IDSSIM可以作为一种有前景的工具来预测LncRNA的功能,识别潜在的LncRNA与疾病的关联,并对候选LncRNA进行生物学实验。
  • 然而,IDSSIM仍然有几个局限性,这激励着我们在未来继续工作。首先,数据库中疾病和/或lncRNA的信息偏差通常是由其研究热度造成的,有时会导致lncRNA疾病关联得分不准确。其次,IDSSIM应综合考虑lncRNAs的先验知识及其与其他生物分子的相互作用,以进一步提高其预测精度。第三,以后应提供IDSSIM软件包或Web应用程序。

缩写

  1. lncRNA:长非编码RNA
  2. ncRNAs:非编码RNA
  3. GO:基因本体论
  4. MESH:医学主题标题
  5. MNDR:哺乳动物ncRNA-疾病存储库
  6. DAGS:有向无环图
  7. IC:信息内容
  8. AUC:曲线下面积
  9. WKNKN:加权K近邻
  10. TPR:真阳性率
  11. FPR:假阳性率
  12. ROC:受试者操作特征
  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Sunny.T

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值