Constructing knowledge graphs and their biomedical applications
1. 引用
Nicholson D N , Greene C S .Constructing Knowledge Graphs and Their Biomedical Applications[J].Computational and Structural Biotechnology Journal, 2020, 18.DOI:10.1016/j.csbj.2020.05.017.
2. 研究关键词
knowledge graphs,Network embeddings,Text mining,Natural language processing,Machine learning,Lterature review
知识图谱,网络嵌入,文本挖掘,自然语言处理,机器学习,文献综述
3. 文献类型
Computational and Structural Biotechnology Journal
4. 研究目的
在这篇综述中,我们描述了在生物医学环境中构建和应用知识图谱的各种方法。我们讨论了通过人工管理数据库和文本挖掘系统构建知识图谱的利弊。我们还比较了应用知识图谱解决生物医学问题的各种方法。最后,我们总结了知识图谱的实用性,并指出了未来有待探索的应用。
5. 研究内容
生物医学知识图定义如下:将一个或多个专家派生的信息源集成到图中的资源,其中节点表示生物医学实体,边表示两个实体之间的关系。关系可以单双向的,也可以是双向的。
5.1. 构建生物医学知识图谱
5.1.1. 构建数据库和人工管理
5.1.2. 用于关系提取的文本挖掘
基于规则的提取包括识别关键字和语法模式,以检测感兴趣的关系。关键词是通过专家知识或使用预先存在的本体来建立的,而语法模式是通过专家策划的解析树来构建的。解析树是描述句子语法结构的树形数据结构,有两种形式:选区解析树(图2)和依赖解析树(图3)。
5.1.3. 提取没有标签的关系
无监督方法提供了一种快速提取关系断言句子而无需注释文本的方法。这类方法的范围从计算共现分数到聚类句子,并提供了一个可用于大型文本库的通用框架。
5.1.4. 监督关系抽取
监督提取器使用标记的句子来构建广义模式,将积极例子(暗示关系的句子)和消极例子(不暗示关系的句子)一分为二。由于预先标记了公开可用的数据集,这些方法中的大多数都得到了蓬勃发展(表3)。使用这些可用数据集的方法包括使用线性分类器(如支持向量机(svm))和非线性分类器(如深度学习技术)。
5.2. 将知识图谱应用于生物医学挑战
知识图谱可以帮助研究人员解决许多生物医学问题。在许多情况下,解决方案依赖于在低维空间中表示知识图谱,这个过程称为表征学习。这个过程的目标是保留和编码与问题相关的知识图谱的局部和/或全局结构,同时将图转换为可以随时使用机器学习方法构建预测器的表示。
5.2.1. 统一表征学习技术
将高维数据映射到低维空间大大提高了自然语言处理和图像分析等领域的建模性能。该空间的技术分为以下三类:矩阵分解、平移距离模型和神经网络模型(图4)。
矩阵分解是一种在低维空间中表示高维数据的强大技术。常见的矩阵分解方法涉及使用SVD,拉普拉斯特征映射或两者的变体将矩阵分解为更小的矩形形式。对于具有大量节点和边的大型网络,矩阵的尺寸可能会变得非常大,从而超出内存限制。此外,我们讨论的方法认为所有的边缘类型是等价的,这可能不适用于所有应用场景,需要新的方法来区分和适应不同的节点和边缘类型。
平移距离模型将知识图中的边视为线性变换。transE优化了h、r、t的向量,同时保证全局方程(h+r≈t)满足,它强制关系具有一对一的映射,这可能不适合所有关系类型。Wang等人试图通过开发TransH模型来解决一对一映射问题。将来,当优化这些距离模型时,这些模型结合其他类型的信息(诸如边缘置信度分数、文本信息或边缘类型信息)可能是有益的。
神经网络模型的性能在很大程度上取决于知识图中节点和边的结构,这些网络以对高维数据进行非线性转换来解决分类和回归问题而闻名。未来的探索领域应该包括使用node2vec和自动编码器来构建互补的知识图低维表示的混合模型。
5.3. 统一的应用程序
知识图谱如何在生物医学环境中应用,并特别强调了在低维空间中表示知识图谱的一组新兴技术。
5.3.1. Multi-omic应用程序
多组学应用使用知识图谱来研究基因组,基因如何在转录组中表达,以及这些转录产物如何在蛋白质组中相互作用。
5.3.2. 药物的应用
知识图谱被应用于识别药物新特性的例子有很多。该领域的任务包括预测药物与其他药物的相互作用,确定药物可能与之相互作用的分子靶点,以及为已有药物确定新的疾病治疗方法。
5.3.3. 临床应用
该领域的任务范围从改善患者诊断到为患者推荐更安全的药物。大多数方法都遇到了电子病历中丢失数据的常见问题。该领域的未来方向包括设计可以填补这一缺失数据缺口的算法或构建可以考虑缺失数据的模型。
6. 链接
Constructing knowledge graphs and their biomedical applications.pdf