C.4.4 Paddlenlp之UIE模型实战实体抽取任务【打车数据、快递单】

该项目展示了如何使用Paddlenlp的UIE模型进行实体抽取,处理包括快递单和打车数据在内的结构化信息提取。通过小样本模型微调,提取目的地、出发地、时间、费用等关键信息,降低信息处理成本。数据集包括waybill.jsonl和doccano_ext.jsonl,涉及姓名、电话、省份、城市、地址和费用等实体。模型评估、预测和可视化功能一应俱全。

在这里插入图片描述
NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等

在这里插入图片描述
专栏详细介绍:NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等

前人栽树后人乘凉,本专栏提供资料:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等项目代码整合,省去你大把时间,效率提升。 帮助你快速完成任务落地,以及科研baseline。

文末含码源

0.背景介绍

本项目将演示如何通过小样本样本进行模型微调,快速且准确抽取快递单中的目的地、出发地、时间、打车费用等内容,形成结构化信息。辅助物流行业从业者进行有效信息的提取,从而降低客户填单

使用Python结合UIE进行信息抽取可按以下步骤进行: ### 模型选择 UIE有多种可用模型,在`taskflow`里设置`model`参数来选择,默认是“uie-base”。不同模型适用于不同语言和场景,具体如下: - `uie-base`:12 - layers,768 - hidden,12 - heads,适用于中文。 - `uie-base-en`:12 - layers,768 - hidden,12 - heads,适用于英文。 - `uie-medical-base`:12 - layers,768 - hidden,12 - heads,适用于中文医疗领域。 - `uie-medium`:6 - layers,768 - hidden,12 - heads,适用于中文。 - `uie-mini`:6 - layers,384 - hidden,12 - heads,适用于中文。 - `uie-micro`:4 - layers,384 - hidden,12 - heads,适用于中文。 - `uie-nano`:4 - layers,312 - hidden,12 - heads,适用于中文。 - `uie-m-large`:24 - layers,1024 - hidden,16 - heads,适用于中、英文。 - `uie-m-base`:12 - layers,768 - hidden,12 - heads,适用于中、英文 [^2]。 ### 数据准备 将标注数据转化成UIE训练所需数据,例如使用`label_studio.py`脚本: ```python python label_studio.py \ --label_studio_file ./document/data/label_studio.json \ --save_dir ./document/data \ --splits 0.8 0.1 0.1 \ --task_type ext ``` 此脚本把Label Studio格式的标注数据转换为UIE训练所需的数据,并且按指定比例划分训练集、验证集和测试集 [^4]。 ### 代码示例 以下是一个简的Python代码示例,展示如何使用UIE进行信息抽取: ```python from paddlenlp import Taskflow # 选择模型,这里使用默认的uie-base ie = Taskflow('information_extraction', model='uie-base') # 待抽取信息的文本 text = "这是一段待抽取信息的示例文本。" # 定义抽取的schema schema = ['示例信息'] # 进行信息抽取 result = ie({'text': text, 'schema': schema}) print(result) ``` 在这个示例中,首先导入`Taskflow`,接着创建一个`information_extraction`任务流,选择`uie-base`模型。然后定义待抽取信息的文本和抽取的schema,最后调用任务流进行信息抽取并打印结果。 ### 适用抽取场景 UIE适用于多种信息抽取场景,如命名实体识别(Named Entity Recognition,简称NER)、关系抽取(Relation Extraction,简称RE)、事件抽取 (Event Extraction, 简称EE)、评论观点抽取、情感倾向分类、跨任务抽取等 [^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

汀、人工智能

十分感谢您的支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值