LBERT: Lexically aware Transformer-based Bidirectional Encoder Representation model for learning

论文简介

作者单位:台湾省阳明大学生物信息研究所
论文地址:链接
代码地址:链接
期刊分区及影响因子:
在这里插入图片描述

摘要:

到一个通用的自然语言处理的技术(LBET)来解决生物实体关系提取(BRE)。
概念理解:

  1. LBET:基于词汇感知变压器的双向编码器表示,带有词法嵌入和距离注意力机制的BERT算法。
  2. BRE:生物实体关系提取是一种用来检验生物实体之间的关系,分类如下图所示:
在药物诱导的细胞凋亡过程中,细胞周期蛋白依赖性激酶抑制剂p21和p27的表达增加,而细胞周期蛋白D1的表达降低。

在这里插入图片描述

1. 介绍

作者思路的来源:

  1. 2018年Warikoo等人的一项研还展示了词汇表示如何有效地使用规范化模式生成本地化上下文推理。
  2. 2020年Lee等人提出的Bio-BERT。

论文创新点:

  1. 引入一种新的本地上下文,即基于词汇模式的表示,以生成基于本地语法的句子解释以及令牌级嵌入。
  2. 引入了距离注意力机制。
  3. 开发一个通用的生物实体关系检测模型,该模型可以预测语料库中独立的实体关系。

2. 数据

  • 预训练:pubmed的摘要文本数,从PubMed 的生物医学文献摘要中辨识和提取具有相互作用资讯之描述句子(共有10.6万个相互作用对),
  • 微调:PPI和DDI摘要(S1)
  • 10折交差验证:五种生物体关系,10个语料库,如下图:
    在这里插入图片描述
    在这里插入图片描述

3. 方法

3.1 LBET模型

3.1.1 LBET的发展背景

在这里插入图片描述

3.1.2 BERT算法理解

印象笔记地址:链接

3.2 词汇模式表示法

Candidate Instance:带有标签的生物实体对,如下图所示。
在这里插入图片描述
具体步骤:

  1. 将pumed预料库通过滑动窗口的方法得到n帧的特征
    在这里插入图片描述

  2. 根据如下公式根据代数投影的方法对每一帧TAG进行聚类
    在这里插入图片描述
    在这里插入图片描述

参数定义:
x,y:表示所选那一帧数据是存在关系在真的关系1,还是没有关系0中。(举个例子)
p20, p11,p02:评估词汇和基于位置的相似性的各个n帧的联合条件概率的多项式系数。
I ( p ) I(p) I(p), I ( Q ) I(Q) I(Q):表示两帧 P ( x , y ) P(x,y) P(x,y), Q ( x , y ) Q(x,y) Q(x,y)独立不表的函数。
Δ \Delta Δ:为进行变换的多项式行列式
w w w:不变的权重

Δ w \Delta^w Δw=1时,表示两个候选帧是相似的,如下图所示。
在这里插入图片描述

在这里插入图片描述
目的:预定义词汇模式的潜在属性,得到一个通用词法嵌入(ULE),如下图的列子。
在这里插入图片描述

3.3 距离引导注意机制

Transformer的注意力机制印象笔记地址:链接
基于查询的点-积- uct与softmax评分的相对距离注意相乘(^D)机理,用式4计算。
在这里插入图片描述

  • D i j D_{ij} Dij:位置距离矩阵。
  • i i i j j j:表示行和列的索引。
  • Mask:注意力的Mask
#这是一句话
在药物诱导的细胞凋亡过程中,细胞周期蛋白依赖性激酶抑制剂p21和p27的表达增加,而细胞周期蛋白D1的表达降低。

“表达”前面的“细胞周期蛋白依赖性激酶抑制剂”与p21和p27直接相关

距离引导注意机制结构:
在这里插入图片描述

4. 预训练

  • 数据:
  • 预训练模型:BioBERT PubMed model_v1.0,初始嵌入层和12个隐藏层一起使用。来自初始[CLS]令牌的池化表示被馈送到分类层,用于基于二元关系任务更新权重
  • 分类模型:
    BioBERT是第一个基于领域特定BERT的模型,已在生物医学语料库上经过八个NVIDIA V100 GPU进行了23天的预训练。
    在这里插入图片描述

在这里插入图片描述

5. 微调

数据:PPI的AIdea语料库,DrugBank (DDI)的语料库。
与传统bert的差异:[CLS]和[SEP]用于最终的微调。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6 . 结果

1. BRE任务中BERT、BIOBERT和LBERT实施方式的比较分析

在这里插入图片描述
2. LBERT和SOTA深度学习模型对各任务BRE类型性能的比较分析
在这里插入图片描述
3. 文本嵌入的影响
在这里插入图片描述

7. 结论

在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值