代码笔记 | bert-event-extraction

最新推荐文章于 2024-04-22 09:40:19 发布

hlee-top

最新推荐文章于 2024-04-22 09:40:19 发布

阅读量1k

点赞数

分类专栏： NLP 代码文章标签： nlp 深度学习 bert

本文链接：https://blog.csdn.net/o11oo11o/article/details/120391463

版权

NLP 同时被 2 个专栏收录

125 篇文章 14 订阅

订阅专栏

代码

3 篇文章 0 订阅

订阅专栏

文章目录

代码链接：https://github.com/nlpcl-lab/bert-event-extraction

1 数据处理

1.1 数据集

数据集使用ACE 2005英文序列，数据集的解析过程可参考这个博客，得到test.json、dev.json、train.json三个文件。

1.2 预处理

1.2.1 数据加载

data_load.py中的ACE2005Dataset类进行json数据的读取，得到下面几种列表：
在这里插入图片描述
其中arguments_li列表中包括候选论元，为全部的实体：

get_samples_weight方法设置样本权重，无事件权重为1.0，有事件权重为5.0。

pad方法对序列进行补齐：

__getitem__方法返回一项输入数据，同时将序列转换为idx。返回的结果中tokens_x为token的idx列表、 entities_x为实体类型的idx列表, postags_x为词性的idx列表, triggers_y为触发词类型的idx列表, arguments为论元列表, seqlen为句子的token的长度, head_indexes为句子中token的第一个字词的位置列表, words为句子列表, triggers为触发词类型列表
在这里插入图片描述

1.2.2 utiles

utiles.py的build_vocab方法建立标签到idx的映射：
在这里插入图片描述
calc_metric方法计算P，R，F1值
find_triggers的方法从序列中找出触发词

2 模型

2.1 触发词预测

首先对token通过bert进行编码，由于一个token可能被分为多个字词，因此只选择第一个字词的编码。
然后通过一个线性层，使用argmax操作得到触发词标签序列。
在这里插入图片描述
然后将触发词和该句子中的候选论元进行拼接，生成argument_hidden, argument_keys，以进行下一步的论元预测。其中argument_hidden为论元的隐藏向量，由触发词和实体向量组成。argument_keys为一个元组列表，由(句子id，触发词开头idx，触发词结尾idx，事件类型，实体开头idx，实体结尾idx，实体类型)组成。
在这里插入图片描述

2.2 论元预测

论元的隐藏向量通过一个线性层进，然后使用argmax操作生成预测的论元标签序列。
在这里插入图片描述

然后通过论元列表和argument_keys的全部实体，生成真实的论元标签序列。
在这里插入图片描述
然后将预测的论元标签序列，得到预测的事件列表。

3 训练

首先加载模型和读取数据
在这里插入图片描述
然后，根据权重进行随机采样和加载数据

然后进行训练，首先进行触发词预测

然后进行论元预测，将loss相加进行训练。

4 评测

首先分别预测触发词和论元。
在这里插入图片描述
然后根据真实的BIO标注序列和预测的序列，得到真实和预测的触发词列表。

根据真实的论元列表和预测的论元列表，得到真实和预测的论元列表。

然后分别计算四个子任务的P,R,F1值，评测标准如下。

trigger classification：触发词的区间和类型正确。
argument classification：触发词和论元的区间和类型正确。
trigger identification：触发词的区间正确。
argument identification：触发词的区间和类型正确，且论元的区间正确。

注意：该代码中的论元评测过于严格，事件类型和论元的区间和角色正确，则论元分类正确，不需要触发词的区间。因此下面代码,需要改为(i, t_type_str, a_start, a_end, a_type_idx)

hlee-top

关注

0
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
6
评论
代码笔记 | bert-event-extraction

文章目录1 数据处理1.1 数据集1.2 预处理1.2.1 数据加载1.2.2 utiles2 模型2.1 触发词预测2.2 论元预测3 训练4 评测代码链接：https://github.com/nlpcl-lab/bert-event-extraction1 数据处理1.1 数据集数据集使用ACE 2005英文序列，数据集的解析过程可参考这个博客，得到test.json、dev.json、train.json三个文件。1.2 预处理1.2.1 数据加载data_load.py中的ACE20
复制链接

扫一扫