A deep-learning system bridging molecule structure and biomedical text with comprehension comparable

A deep-learning system bridging molecule structure and biomedical text with comprehension comparable to human professionals

基本信息

博客贡献人

猪八戒

作者

Zheni Zeng, Yuan Yao, Zhiyuan Liu & Maosong Sun

摘要

为了加快生物医学研究过程,开发了深度学习系统,通过读取大规模生物医学数据来自动获取分子实体的知识。受人类从分子结构和生物医学文本信息的多功能阅读中学习深度分子知识的启发,我们提出了一个机器阅读系统,该系统在一个统一的深度学习框架中连接这两种类型的信息,用于全面的生物医学研究辅助。我们解决了现有的机器读取模型只能单独处理不同类型的数据的问题,从而实现了对分子实体的全面和彻底的理解。通过在不同信息源内和跨信息源内以无监督的方式获取元知识,我们的系统可以促进各种现实世界的生物医学应用,包括分子属性预测、生物医学关系提取等。实验结果表明,我们的系统在分子性质理解方面甚至超过了人类专业人员,也揭示了其在促进药物自动发现和记录方面的潜力。

现有挑战&动机

所有现有的用于获取生物医学知识的机器阅读系统都只能单独局限于内部分子结构信息或外部生物医学文本信息,这不仅限制了机器阅读系统的通用性,而且由于每个信息的固有性质,也限制了知识获取的性能。具体来说,来自分子结构的信息很简洁,但通常很有限,而来自生物医学文本的信息具有更好的丰富度和灵活性,但通常存在有噪声的提取过程。此外,机器阅读系统仅限于单一信息源,很难学习除单一信息之外的知识来深入分子理解。受人类学习者的启发,我们希望建立一个知识渊博的机器阅读系统,多用途地从两种信息源中学习,从而更好地掌握分子知识,从而帮助生物医学研究。

方法

这项工作中,论文作者开创了一个知识化的机器阅读系统,建立了来自分子结构的内部信息和来自生物医学文本的外部信息之间的联系,在统一的语言建模框架下对异构数据进行联合建模,在不使用任何人工注释的情况下,通过自监督语言模型对大规模生物医学数据进行预训练,学习元知识,如图1所示。

图1 知识型和多用途机器阅读的概念图。这里以水杨酸为例。受人类在不同信息中学习元知识的启发,我们的机器阅读系统首先进行序列化,**a**在分子的smiles串上使用BPE算法,然后将生成的子串插入**c**。大型语料库**b**通过**d**掩码语言模型学习不同语义单元之间的细粒度映射。这样,系统可以执行**e**知识和多用途阅读,这在单信息下游任务和多用途阅读任务上都取得良好的性能。
图1 知识型和多用途机器阅读的概念图。这里以水杨酸为例。受人类在不同信息中学习元知识的启发,我们的机器阅读系统首先进行序列化,a在分子的smiles串上使用BPE算法,然后将生成的子串插入c。大型语料库b通过d掩码语言模型学习不同语义单元之间的细粒度映射。这样,系统可以执行e知识和多用途阅读,这在单信息下游任务和多用途阅读任务上都取得良好的性能。

BPE算法:一种纯数据驱动的字节对编码算法,将smiles串分割成多个子串,并且作者观察到由此产生的子串在化学上是可以解释的(例如,碳链和官能团) 。

方法描述:

该论文作者提出了KV-PLM,这是一个统一的预训练语言模型,用于处理分子结构和生物医学文本,以实现知识化和多功能的机器阅读。KV-PLM 以 BERT 为骨干。为了在统一的模型中处理异构数据,首先将分子结构序列化为 SMILES 字符串,然后利用 BPE 算法进行分割。为了学习不同语义单元之间的元知识,他们使用掩码语言建模任务对 KV-PLM 进行预训练。在预训练期间,部分token(包括来自分子结构和生物医学文本的token)被随机屏蔽,并要求模型根据上下文重建屏蔽的标记。通过这种方式,该模型可以在没有任何注释数据的情况下掌握分子结构与生物医学文本之间的相关性。经过预训练后,该模型可以很容易地进行微调,以促进各种单一信息和交叉信息生物医学应用。

实验

任务设置

作者进行了三种类型的任务测试:

  • 分子结构任务:作者选择了MoleculeNet中的四个分子性质预测的分类任务:BBBP(血脑屏障)、SIDER(药物副反应)、Tox21(分子毒性)、HIV (HIV抑制活性)﹔以及USPTO-few的有机反应分类任务(化学专利中的反应分类任务,作者在rxnfp提供的410k条、1000类反应中,每类反应选了32个反应,得到32k条反应数据)。

  • 自然语言任务(命名体识别与关系提取):BC5CDR(化学分子与疾病的命名体识别任务,每个文本标记被分类为语义标签,以指定命名实体的位置和类型。) ; ChemProt(化学分子与蛋白的关系提取)。

  • 多功能阅读任务:作者从PubChem收集了15k的化学分子,包括它们的名字、SMILES、性质描述文本,得到分子与描述文本——对应的数据集PCdes。对此作者提出了一个双向解析任务,即由分子(SMILES)找到对应的描述段落,以及由描述段落找到分子。另外提出了一个句子级别的解析任务,模拟考试的四项选择题,即给出分子,找到四个描述句子中唯一正确的一项,满分100,共200题,使用得分来进行评价。

在这里插入图片描述
图2 化学选择任务

根据PCdes中的描述,可以自动生成1.5k个多个选项。对于测试集中给定的smiles,选择了其中四个描述句子。与正样本相似的负样本被删除,有助于减少把这些负样本视作ground-truth的可能性。该任务被要求选择正确的答案,就像一个学生完成一个考试一样,这是一个相当现实的情况,化学选择任务的示意图如图2所示。

baselines

对于这三类任务,作者展示的baselines如下:

  1. D-MPNN是一种与描述符相结合的基于监督图卷积的方法;
  2. 随机森林(RF)49是用于统计机器学习的代表性方法,其也将描述符作为输入;
  3. DMP是一种以SMILES字符串和分子图为输入的无监督预训练方法;
  4. RXNFP:2021年IBM RXN的工作,用化学反应公式进行BERT预训练;
  5. BERTwo:没有预训练的BERT;
  6. SMI-BERT:用分子SMILES进行BERT预训练;
  7. Sci-BERT:用学术文献文本进行BERT预训练(生物医学(82%)以及计算机科学(12%),总共114万篇科技论文) ;
  8. KV-PLM:本文工作,将分子SMILES插入到对应的文献文本中进行BERT预训练,用类似Sci-BERT的分词器处理SMILES与文献文本;
  9. KV-PLM*:对于SMILES专门优化了分词器进行处理,删去SMILES中表示支链的“()"与表示环系连接的数字,保证SMILES分词得到的子串具有化学官能团意义,其他部分与KV-PLM相同。

实验结果及分析

分子性质预测任务的实验结果如表1所示:

1
表1 6个模型在分子性质预测任务中的表现 (ROC-AUC)

自然语言任务(命名体识别与关系提取)的实验结果如表2所示:

在这里插入图片描述
表2 6个模型在自然语言任务中的表现 (F1-score)

化学选择任务的得分比较如图3所示:

在这里插入图片描述
图3 化学选择任务的得分比较。我们的模型成功地超越了人类专业人员,显示了其在理解分子结构和生物医学文本方面的良好能力。误差条表示六次运行时的标准差,满分为100分。

结果分析:

  • 对单信息数据进行预训练,可以大大提高模型对相应下游任务的性能。具体来说,SMI-BERT在分子结构任务上的表现优于BERTwo,Sci-BERT在自然语言任务上的表现优于BERTwo。此外,单信息预训练模型在通用任务上也取得了合理的性能。结果表明,预训练可以有效地掌握每种类型信息中的元知识,以帮助生物医学任务。
  • KV-PLM由于同时拥有文本与SMILES的双重先验知识,在各项任务中表现排名靠前,而KV-PLM*由于对SMILES采用优化的分词方式,舍弃了一些结构信息,导致在反应分类任务中表现不佳(分子结构信息对于反应分类很重要)。
  • 有趣的是,我们发现单信息预训练也可以为其他信息类型的下游任务带来提升。具体来说,尽管在自然语言数据上进行了预训练,但在分子结构任务上进行微调时,Sci-BERT甚至优于为分子结构数据定制和预训练的SMI-BERT和RXNFP模型。这表明分子结构模式与自然语言之间可能存在一定的联系。例如,组合性和层次结构是分子结构和自然语言的重要属性,可以转移到不同的信息源帮助任务。

相关知识链接

下载

文章下载:A deep-learning system bridging molecule structure and biomedical text with comprehension comparable to human professionals

代码下载:https://github.com/thunlp/KV-PLM

总结

作者提出了一种将分子结构信息通过smiles插入到知识文本中的跨模态学习方法,用类似bert的预训练方法,结合结构片段与知识文本,在分子结构信息和分子描述信息中搭建了桥梁,从而提高下游任务的表现,同时也提出了双向解析分子结构与性质描述文本的数据集与任务。

亮点

  • 使用语言模型结合了分子结构与外部生物医学文本信息,结构清晰简洁;
  • 提出了双向解析数据集。

不足

  • 原始smiles串经过BPE算法,去掉了括号和数字标签,会一定程度上丢失空间结构的信息;
  • 实验结果与SOTA有较大差距,且只有分类实验,没有回归实验。

启发

  • 仅使用BPE算法对smiles进行单独分割,导致分割出的结构不全面,可以再考虑使用其他方法进行化学结构的获取;
  • 应用于回归实验。
  • 把bert换成其他可能更合适的大模型。

BibTex

@article{zeng2022deep,
  title={A deep-learning system bridging molecule structure and biomedical text with comprehension comparable to human professionals},
  author={Zeng, Zheni and Yao, Yuan and Liu, Zhiyuan and Sun, Maosong},
  journal={Nature communications},
  volume={13},
  number={1},
  pages={862},
  year={2022},
  publisher={Nature Publishing Group UK London}
}
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值