[Paddle] ERNIE-UIE 通用信息抽取模型（含自定义细分领域模型训练）

最新推荐文章于 2025-03-03 10:35:54 发布

alexgaoyihang

最新推荐文章于 2025-03-03 10:35:54 发布

阅读量2.8k

点赞数 21

文章标签： paddle ERNIE-UID 通用信息抽取细分领域模型训练自定义数据集

本文链接：https://blog.csdn.net/alexgaoyihang/article/details/137494672

版权

介绍

ERNIE-UIE信息抽取模型可以进行关键信息抽取，可参照官网安装流程进行配置和使用。

但是在实际的细分领域中（细分的应用场景），信息抽取的效果并不好（中文书写习惯截然不同），本文按照官网的方式，进行模型训练从而进一步提升效果，并进行记录。

环境配置

Paddle、ERNIE-UIE
1. Paddle Install
2. ERNIE-UIE Install
3. 正确安装后能够正确返回信息抽取的结果；
doccano数据标注
1. 介绍
2. 安装
3. doccano环境安装成功后，登录系统并创建一个[序列标注]类型的项目[regex]，如图所示定义了三个Tag: [‘start’, ‘label’, ‘end’]。图片无法正常查看的话，访问
4. 在[regex]项目下，导入数据集并且进行标注，如图所示，每一段话按顺序标注[‘start’, ‘label’, ‘end’] 三个部分。图片无法正常查看的话，访问
5. 如上图所示，选中数据进行导出，会下载一个zip文件夹，内部包含一个名为[admin.jsonl]的文件，将其重命名为 doccano_ext.json。

PaddleNLP

使用 git clone 命令下载PaddleNLP。
进入到 /model_zoo/uie 文件夹并创建 data 文件夹，并将上传上述生成的 doccano_ext.json 文件。
进行数据转换，执行如下命令，会在 data 文件夹下生成：train.txt、test.txt、dev.txt、sample_index.json 这些文件。
```
python doccano.py  --doccano_file ./data/doccano_ext.json  --task_type "ext"  --save_dir ./data  --negative_ratio 5
```
建议在GPU环境下进行模型微调，作者租用了一台 A30(24G显存)进行的训练。
使用定制的模型进行预测，修改 ERNIE-UIE 官网提供的代码（注意 Taskflow 是通过task_path指定模型权重文件的路径）
```
schema = ['start', 'label', 'end']
my_ie = Taskflow("information_extraction", schema=schema, task_path='./checkpoint/model_best')
```

通过结果能改看到模型发生了变化。

[{
  'end': [{
    'end': 24,
    'probability': 0.8684210982049407,
    'start': 21,
    'text': '第三章'
  }],
  'label': [{
    'end': 12,
    'probability': 0.9925105558749578,
    'start': 10,
    'text': '借阅'
  }],
  'start': [{
    'end': 3,
    'probability': 0.8233676770565523,
    'start': 0,
    'text': '第二章'
  }]
}]

总结
通过标注少量数据对 UIE 模型进行微调，将其应用到垂直细分领域，提升了信息提取的效果，能够更方便的将其应用到细分的实际应用场景中。
参考
1. https://github.com/PaddlePaddle/PaddleNLP
2. https://github.com/doccano/doccano
3. https://pap-docs.pap.net.cn/#/md/other/paddle/paddle-install