在清华大学开源的OpenNRE项目基础上实现中文实体关系识别
github项目地址,点我
一、中文关系抽取
使用哈工大,BERT-wwm,中文bert,在20w中文人物关系数据上的准确率达到0.97
实现过程
实现过程十分简单,如下:
1)token阶段:将文本根据两个实体位置分割成五个小片; 2)index阶段:文本开头使用[CLS],结尾使用[SEP],中间的分割使用[unused1-4]; 3)padding阶段:0填充,最大长度80; 4)attention mask,完成embedding; 5)通过bert模型; 6)全连接; 7)softmax。
训练结果
=== Epoch 0 train === 100%|██████████████████████████████████████████████████████████████████| 3094/3094 [40:12<00:00, 1.28it/s, acc=0.773, loss=0.687] === Epoch 0 val === 100%|██████████████████████████████████████████████████████████████████████████████████| 16/16 [00:06<00:00, 2.42it/s, acc=0.934] Best ckpt and saved. === Epoch 1 train