opennre 中文关系抽取_基于bert的中文实体关系识别（实体关系抽取）项目开源

最新推荐文章于 2024-08-08 08:31:18 发布

weixin_39777488

最新推荐文章于 2024-08-08 08:31:18 发布

阅读量1.8k

点赞数

文章标签： opennre 中文关系抽取

本文介绍了在清华大学开源项目OpenNRE上实现的中文关系抽取，使用哈工大BERT-wwm模型，达到0.986的测试集准确率。文章详细阐述了实现过程，包括文本处理、模型训练和测试，并提供了数据下载和环境配置的指导。

摘要由CSDN通过智能技术生成

在清华大学开源的OpenNRE项目基础上实现中文实体关系识别

github项目地址，点我

一、中文关系抽取

使用哈工大，BERT-wwm，中文bert，在20w中文人物关系数据上的准确率达到0.97

实现过程

实现过程十分简单，如下：

1）token阶段：将文本根据两个实体位置分割成五个小片； 2）index阶段：文本开头使用[CLS]，结尾使用[SEP]，中间的分割使用[unused1-4]； 3）padding阶段：0填充，最大长度80； 4）attention mask，完成embedding； 5）通过bert模型； 6）全连接； 7）softmax。

训练结果

=== Epoch 0 train === 100%|██████████████████████████████████████████████████████████████████| 3094/3094 [40:12<00:00, 1.28it/s, acc=0.773, loss=0.687] === Epoch 0 val === 100%|██████████████████████████████████████████████████████████████████████████████████| 16/16 [00:06<00:00, 2.42it/s, acc=0.934] Best ckpt and saved. === Epoch 1 train