目录
论文简介
作者单位:台湾省阳明大学生物信息研究所
论文地址:链接
代码地址:链接
期刊分区及影响因子:
摘要:
到一个通用的自然语言处理的技术(LBET)来解决生物实体关系提取(BRE)。
概念理解:
- LBET:基于词汇感知变压器的双向编码器表示,带有词法嵌入和距离注意力机制的BERT算法。
- BRE:生物实体关系提取是一种用来检验生物实体之间的关系,分类如下图所示:
在药物诱导的细胞凋亡过程中,细胞周期蛋白依赖性激酶抑制剂p21和p27的表达增加,而细胞周期蛋白D1的表达降低。
1. 介绍
作者思路的来源:
- 2018年Warikoo等人的一项研还展示了词汇表示如何有效地使用规范化模式生成本地化上下文推理。
- 2020年Lee等人提出的Bio-BERT。
论文创新点:
- 引入一种新的本地上下文,即基于词汇模式的表示,以生成基于本地语法的句子解释以及令牌级嵌入。
- 引入了距离注意力机制。
- 开发一个通用的生物实体关系检测模型,该模型可以预测语料库中独立的实体关系。
2. 数据
- 预训练:pubmed的摘要文本数,从PubMed 的生物医学文献摘要中辨识和提取具有相互作用资讯之描述句子(共有10.6万个相互作用对),
- 微调:PPI和DDI摘要(S1)
- 10折交差验证:五种生物体关系,10个语料库,如下图:
3. 方法
3.1 LBET模型
3.1.1 LBET的发展背景
3.1.2 BERT算法理解
印象笔记地址:链接
3.2 词汇模式表示法
Candidate Instance:带有标签的生物实体对,如下图所示。
具体步骤:
-
将pumed预料库通过滑动窗口的方法得到n帧的特征
-
根据如下公式根据代数投影的方法对每一帧TAG进行聚类
参数定义:
x,y:表示所选那一帧数据是存在关系在真的关系1,还是没有关系0中。(举个例子)
p20, p11,p02:评估词汇和基于位置的相似性的各个n帧的联合条件概率的多项式系数。
I
(
p
)
I(p)
I(p),
I
(
Q
)
I(Q)
I(Q):表示两帧
P
(
x
,
y
)
P(x,y)
P(x,y),
Q
(
x
,
y
)
Q(x,y)
Q(x,y)独立不表的函数。
Δ
\Delta
Δ:为进行变换的多项式行列式
w
w
w:不变的权重
Δ
w
\Delta^w
Δw=1时,表示两个候选帧是相似的,如下图所示。
目的:预定义词汇模式的潜在属性,得到一个通用词法嵌入(ULE),如下图的列子。
3.3 距离引导注意机制
Transformer的注意力机制印象笔记地址:链接
基于查询的点-积- uct与softmax评分的相对距离注意相乘(^D)机理,用式4计算。
- D i j D_{ij} Dij:位置距离矩阵。
- i i i, j j j:表示行和列的索引。
- Mask:注意力的Mask
#这是一句话
在药物诱导的细胞凋亡过程中,细胞周期蛋白依赖性激酶抑制剂p21和p27的表达增加,而细胞周期蛋白D1的表达降低。
“表达”前面的“细胞周期蛋白依赖性激酶抑制剂”与p21和p27直接相关
距离引导注意机制结构:
4. 预训练
- 数据:
- 预训练模型:BioBERT PubMed model_v1.0,初始嵌入层和12个隐藏层一起使用。来自初始[CLS]令牌的池化表示被馈送到分类层,用于基于二元关系任务更新权重
- 分类模型:
BioBERT是第一个基于领域特定BERT的模型,已在生物医学语料库上经过八个NVIDIA V100 GPU进行了23天的预训练。
5. 微调
数据:PPI的AIdea语料库,DrugBank (DDI)的语料库。
与传统bert的差异:[CLS]和[SEP]用于最终的微调。
6 . 结果
1. BRE任务中BERT、BIOBERT和LBERT实施方式的比较分析
2. LBERT和SOTA深度学习模型对各任务BRE类型性能的比较分析
3. 文本嵌入的影响