代码笔记 | bert-event-extraction

3 篇文章 0 订阅


代码链接:https://github.com/nlpcl-lab/bert-event-extraction

1 数据处理

1.1 数据集

数据集使用ACE 2005英文序列,数据集的解析过程可参考这个博客,得到test.json、dev.json、train.json三个文件。

1.2 预处理

1.2.1 数据加载

data_load.py中的ACE2005Dataset类进行json数据的读取,得到下面几种列表:
在这里插入图片描述
其中arguments_li列表中包括候选论元,为全部的实体:
在这里插入图片描述
get_samples_weight方法设置样本权重,无事件权重为1.0,有事件权重为5.0。
在这里插入图片描述
pad方法对序列进行补齐:
在这里插入图片描述
__getitem__方法返回一项输入数据,同时将序列转换为idx。返回的结果中tokens_x为token的idx列表、 entities_x为实体类型的idx列表, postags_x为词性的idx列表, triggers_y为触发词类型的idx列表, arguments为论元列表, seqlen为句子的token的长度, head_indexes为句子中token的第一个字词的位置列表, words为句子列表, triggers为触发词类型列表
在这里插入图片描述

1.2.2 utiles

utiles.py的build_vocab方法建立标签到idx的映射:
在这里插入图片描述
calc_metric方法计算P,R,F1值
在这里插入图片描述find_triggers的方法从序列中找出触发词
在这里插入图片描述

2 模型

2.1 触发词预测

首先对token通过bert进行编码,由于一个token可能被分为多个字词,因此只选择第一个字词的编码。
然后通过一个线性层,使用argmax操作得到触发词标签序列。
在这里插入图片描述
然后将触发词和该句子中的候选论元进行拼接,生成argument_hidden, argument_keys,以进行下一步的论元预测。其中argument_hidden为论元的隐藏向量,由触发词和实体向量组成。argument_keys为一个元组列表,由(句子id,触发词开头idx,触发词结尾idx,事件类型,实体开头idx,实体结尾idx,实体类型)组成。
在这里插入图片描述

2.2 论元预测

论元的隐藏向量通过一个线性层进,然后使用argmax操作生成预测的论元标签序列。
在这里插入图片描述

然后通过论元列表和argument_keys的全部实体,生成真实的论元标签序列。
在这里插入图片描述
然后将预测的论元标签序列,得到预测的事件列表。
在这里插入图片描述

3 训练

首先加载模型和读取数据
在这里插入图片描述
然后,根据权重进行随机采样和加载数据
在这里插入图片描述
然后进行训练,首先进行触发词预测
在这里插入图片描述
然后进行论元预测,将loss相加进行训练。
在这里插入图片描述

4 评测

首先分别预测触发词和论元。
在这里插入图片描述
然后根据真实的BIO标注序列和预测的序列,得到真实和预测的触发词列表。
在这里插入图片描述
根据真实的论元列表和预测的论元列表,得到真实和预测的论元列表。
在这里插入图片描述
然后分别计算四个子任务的P,R,F1值,评测标准如下。

  1. trigger classification:触发词的区间和类型正确。
  2. argument classification:触发词和论元的区间和类型正确。
  3. trigger identification:触发词的区间正确。
  4. argument identification:触发词的区间和类型正确,且论元的区间正确。
    在这里插入图片描述
    注意:该代码中的论元评测过于严格,事件类型和论元的区间和角色正确,则论元分类正确,不需要触发词的区间。因此下面代码,需要改为(i, t_type_str, a_start, a_end, a_type_idx)
    在这里插入图片描述
  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hlee-top

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值