Biomedical Event Extraction as Sequence Labeling 阅读总结

最新推荐文章于 2024-04-07 04:15:00 发布

comeonfly666

最新推荐文章于 2024-04-07 04:15:00 发布

阅读量621

点赞数 3

分类专栏：论文阅读笔记文章标签：知识图谱深度学习自然语言处理

本文链接：https://blog.csdn.net/comeonfly666/article/details/115441406

版权

生物医学事件抽取序列标注多任务学习多标签解码器 BERT

关键词由CSDN通过智能技术生成

论文阅读笔记专栏收录该内容

22 篇文章 3 订阅

订阅专栏

Biomedical Event Extraction as Sequence Labeling阅读总结

Purpose
Background
Encoding Event Structures
- Event Structures
- Sequence Labeling Encoding
Event Extraction as Sequence Labeling
- Multi-task Strategies
- Multi-label Decoder
Experimental and Results
Conclusion

Purpose

作者引入了一个端到端神经网络信息联合抽取模型Biomedical Event Extraction as Sequence Labeling(BEESL)。该模型将事件抽取任务转换为序列标注，利用多标签感知编码策略，通过多任务学习对中间任务进行联合建模。BEESL是迅速准确的端到端模型，与现有方法不同，BEESL不需要任何外部知识库或处理工具。

Background

生物医学事件抽取为协助领域专家管理知识库提供了重要手段，然而事件通常十分复杂，相互嵌套，尤其是生物医学领域的事件抽取具有很大的挑战性，进展缓慢。许多现有的生物医学事件抽取系统仍是pipeline，独立抽取触发词和参数。
在这里插入图片描述

本文作者提出了新的提取方法：将事件结构转换为适合序列标注的表示方法，并在多任务序列标注模型中使用带有BERT的多标签感知编码器。与之前的工作相比，建立了一个更快的联合模型，减少了错误传播。

多任务学习(MTL)：旨在使用其他相关任务来提升主要任务的泛化能力，可以认为是一种集成学习方法，通过对几个任务同时训练，相互影响(一般是共享参数)。多个任务共享一个结构，该结构的参数在优化时会被所有任务影响，这样在所有任务收敛时，这个结构相当于融合了所有任务。

Encoding Event Structures

Event Structures

事件是由多个信息单元组成的结构化表示。事件都有一个触发词trigger(下图中的圆角方框)，一个或多个参数argument，即实体或其他事件(下图中箭头所指向的位置)，这些参数被分配特定的角色role(箭头上的标签)。例如"production"是"EXPRESSION"事件的触发词，"IL-10"是其参数。嵌套结构很常见，如"activation"同时是"induced"和"promote"的参数。

在这里插入图片描述

Sequence Labeling Encoding

下面引入依存句法分析的概念：分析句子中词与词之间的依存关系，给出一颗由词语依存关系构成的依存语法树。"依存"指词与词之间支配与被支配的具有方向的不对等关系。一个依存关系连接核心词(head)和依存词(dependent)，依存关系可以细分为不同的类型，表示两个词之间具体的句法关系。

在这里插入图片描述

给定一个含有n个token的序列[ $x_1$ ,…, $x_n$ ]，作者将事件结构编码为token层面的标签序列[ $y_1$ ,…, $y_n$ ]，把任务简化为序列标注问题。利用依存句法分析，为每一个token $x_i$ 编码一个标签 $y_i$ ，组成三元组<d,r,h>。其中

d是依存词(dependent)，可以是事件或mention(触发词、实体或无)。

r是关系(relation)，表示其角色。

h指明token所属事件的相对位置。

为了区分相同事件的head，作者将h编码为relative head mention position，比如，h = + $REG_{+1}$ 表示右边的第一个+REGULATION，即d是右边第一个+REGULATION的r(Cause)，h = + $REG_{-2}$ 表示左边的第二个+REGULATION。Figure 2中"production"的标签是<EXPRESSION, THEME, + $REG_{-1}$ >，表明这个token是一个EXPRESSION事件的触发词，是左边第一个REGULARION事件的THEME。

与依存句法分析想反，token可以具有0或多个root，因为可以有多个head和relation，这带来了额外的挑战。比如，"activation"是"induced"的THEME，同时也是"promote"的Cause，因此，"activation"的标签是<+REGYLATION, [THEME, CAUSE], [+ $REG_{-1}$ ,+ $REG_{+1}$ ]>

Event Extraction as Sequence Labeling

作者想要学习一个函数f： ${\rm{X}} \to {\rm{Y}}$ ,为每个token $x_i$ 安排一个结构化的标签 $y_i$ 即<d,r,h>。

作者提出使用多任务学习减少标签空间，匹配多标签预测。

下图是BEESL的整体框架。使用BERT作为编码器，在生物医学文本上进行预训练。为了提升泛化能力，掩盖了实体。每一个token $x_i$ 的WordPiece被用来预测，其中 $x_i$ 的上下文隐藏表示 $e_i$ 采用分层注意力机制进行编码。解码器使用带有交叉熵损失的softmax(除非另有说明)，并引入了多标签解码器。

在这里插入图片描述

Multi-task Strategies

定义标签空间由 $d_i$ ∈D， $r_i$ ∈R， $h_i$ ∈H组成，使用 $\mathcal{L}$ 表示标签空间的最大size。

每个token $x_i$ 被分解为多个部分(子标签)，每个部分都视为一个预测任务。基于分解，有四个多任务学习操作(任务对或子任务)，如下：

<d>, <r, h>: $\mathcal{L}$ = |D| + |R| * |H|
<d, r>, <h>: $\mathcal{L}$ = |D| * |R| + |H|
<d, h>, <r>: $\mathcal{L}$ = |D| * |H| + |R|
<d>, <r>, <h>: $\mathcal{L}$ = |D| + |H| + |R|

操作4将每个子任务编码为其自己的任务，尽管拥有最小的标签空间，这个操作导致原问题解耦为3个独立的任务。作者假设操作1能够提升BEESL的性能。

如上图所示，BEESL使用预测的子标签组成完整的标签三元组 ${\hat y_i} = \left\langle {\hat d,\hat r,\hat h} \right\rangle$ 。如果r和h属于不同的子标签空间，则要求 $\hat r,\hat h$ 同时出现(非空)以确保格式正确，这也是操作2-4的缺点。

训练过程的MTL损失为 $\sum\nolimits_t {{\lambda _t}{L_t}}$ ，其中 $L_t$ 是每个任务t的损失，由各自的解码器给出。 $\lambda _t$ 是特定任务的权值参数，本实验中将所有 $\lambda$ 设为1。

Multi-label Decoder

多标签编码器用来处理token具有多个标签的任务，适合预测关系和heads。编码器为每个标签 $l_j$ ∈L建模为P( $l_j$ | $e_i$ )。预测每个标签时都使用一个sigmoid函数，对所有损失的贡献相等。给定标签 $l_j$ 的概率P( $l_j$ | $e_i$ )和阈值 $\gamma$ ，将所有 $P({l_j}|{e_i}) \ge \gamma$ 的标签 $l_j$ 分配给token $x_i$ 。如果没有标签满足，就选用得分最高的标签。采用二元交叉熵损失，在每个批次中取平均值。

Experimental and Results

数据集选用Genia 2011，数据集统计数据在下表展示。

在这里插入图片描述

下表展示了MTL实验的主要结果，证明了作者之前的假设(，<r，h>能够提升模型的性能)。

在这里插入图片描述

Conclusion

本文提出了一种高效、准确的端到端生物医学事件提取系统BEESL。BEESL广泛适用于事件提取和其他可以重铸为序列标记的任务。该系统的优点来自于联合多任务建模和多标签解码，这有助于任务之间的相互影响。BEESL速度很快，并且在Genia 2011事件提取基准上实现了最先进的性能，而不需要外部工具来实现特性和资源(如知识库)。分析表明，BEESL可以很好地跨事件类型工作。

comeonfly666

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Biomedical Event Extraction as Sequence Labeling 阅读总结

Biomedical Event Extraction as Sequence Labeling阅读总结PurposeBackgroundEncoding Event StructuresEvent StructuresSequence Labeling EncodingEvent Extraction as Sequence LabelingMulti-task StrategiesMulti-label DecoderExperimental and ResultsConclusionPurpose
复制链接

扫一扫

专栏目录