代码链接:https://github.com/nlpcl-lab/bert-event-extraction
1 数据处理
1.1 数据集
数据集使用ACE 2005英文序列,数据集的解析过程可参考这个博客,得到test.json、dev.json、train.json三个文件。
1.2 预处理
1.2.1 数据加载
data_load.py中的ACE2005Dataset类进行json数据的读取,得到下面几种列表:
其中arguments_li列表中包括候选论元,为全部的实体:
get_samples_weight方法设置样本权重,无事件权重为1.0,有事件权重为5.0。
pad方法对序列进行补齐:
__getitem__方法返回一项输入数据,同时将序列转换为idx。返回的结果中tokens_x为token的idx列表、 entities_x为实体类型的idx列表, postags_x为词性的idx列表, triggers_y为触发词类型的idx列表, arguments为论元列表, seqlen为句子的token的长度, head_indexes为句子中token的第一个字词的位置列表, words为句子列表, triggers为触发词类型列表
1.2.2 utiles
utiles.py的build_vocab方法建立标签到idx的映射:
calc_metric方法计算P,R,F1值
find_triggers的方法从序列中找出触发词
2 模型
2.1 触发词预测
首先对token通过bert进行编码,由于一个token可能被分为多个字词,因此只选择第一个字词的编码。
然后通过一个线性层,使用argmax操作得到触发词标签序列。
然后将触发词和该句子中的候选论元进行拼接,生成argument_hidden, argument_keys,以进行下一步的论元预测。其中argument_hidden为论元的隐藏向量,由触发词和实体向量组成。argument_keys为一个元组列表,由(句子id,触发词开头idx,触发词结尾idx,事件类型,实体开头idx,实体结尾idx,实体类型)组成。
2.2 论元预测
论元的隐藏向量通过一个线性层进,然后使用argmax操作生成预测的论元标签序列。
然后通过论元列表和argument_keys的全部实体,生成真实的论元标签序列。
然后将预测的论元标签序列,得到预测的事件列表。
3 训练
首先加载模型和读取数据
然后,根据权重进行随机采样和加载数据
然后进行训练,首先进行触发词预测
然后进行论元预测,将loss相加进行训练。
4 评测
首先分别预测触发词和论元。
然后根据真实的BIO标注序列和预测的序列,得到真实和预测的触发词列表。
根据真实的论元列表和预测的论元列表,得到真实和预测的论元列表。
然后分别计算四个子任务的P,R,F1值,评测标准如下。
- trigger classification:触发词的区间和类型正确。
- argument classification:触发词和论元的区间和类型正确。
- trigger identification:触发词的区间正确。
- argument identification:触发词的区间和类型正确,且论元的区间正确。
注意:该代码中的论元评测过于严格,事件类型和论元的区间和角色正确,则论元分类正确,不需要触发词的区间。因此下面代码,需要改为(i, t_type_str, a_start, a_end, a_type_idx)