前言
在日常工作中,从文本中抽取各类信息是常见的基本任务,今天要给大家介绍的是百度开源的UIE框架,这一框架在实体抽取、关系抽取、事件抽取、情感分析等任务上都有着良好的泛化效果。其在医疗、金融等领域都有着不错的效果。
而且最重要的是其可以实现零样本(zero-shot)或者少样本(few-shot)抽取,达到了开箱即用的效果。
医疗领域效果:
金融领域效果:
框架地址:
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uiegithub.com
怎么开始
这里就不多介绍了,其官方文档中都有demo,如:
笔者自己也试了一下:
更多用法大家可以自己试试,这里需要说的是整个框架是以ERNIE(百度的一个预训练模型)为backbone,基于prompt思想设计的,这里的prompt其实就是代码中的schema,可以看得出怎么设计prompt模版成为了最关键的点,而UIE把怎么设计模版这个问题下放给了用户,这样就满足了用户形形色色的需求。
作为用户,我们在使用的时候最应该关注点就是怎么设计自己的prompt模版,这里笔者也试了一下,通常来说prompt模版提示词最好在原文出现,不出现比较难抽取出来,当然了一些通用抽取类型比如“时间,地点,机构”啥的直接裸写就可以。
总结
其实不论是NLP亦或是CV等领域,模型、任务统一都是个趋势,Bert等预训练模型的出现其实相比以前就在一定程度上统一了一波,将来还会更统一,其实从最高的理想状态来说最好就一个大一统模型,它什么都可以完成,其不仅仅能完成一个模态中的各类任务,而且还能处理各种模态任务,哈哈,这个理想也许很远,但是确实一直在前进。
关注
欢迎关注,下期再见啦~
欢迎关注笔者微信公众号:
github:
Mryangkaitong · GitHubhttps://github.com/Mryangkaitong
知乎: