简历信息提取算法-学习笔记(三)

这篇是简历信息提取(二):HR救星!用UIE Taskflow快速完成简历信息批量抽取的学习笔记

目录
在这里插入图片描述

第一篇文章简历信息提取(一)介绍的是,怎么样把简历图片中的文本【全文】提取出来。

这篇文章是在第一篇的基础之上,有了简历文本之后,怎么样提取关键信息。比如抽取,姓名、年龄、学校这样的关键信息。

1 一键实体抽取

这里主要介绍,有了简历文本之后,如何使用paddlenlp里面的uie功能,实现关键信息抽取。例如有一段简历文本:“姓名:小李,性别:男,出生日期:2000年04月,民族:汉族,联系电话:13602173xxx”

想要抽取出的关键信息是:

  • 出生日期:2000年04月
  • 姓名:小李
  • 电话:13602173xxx

这里介绍了,使用PaddleNLP中的UIE相关工具包可以实现此功能。所以要安装相关环境。

1.1 安装依赖库——相关环境安装

需要安装PaddleNLP

  1. 安装 PaddleNLP 可以参考PaddleNLP官网的安装流程。 流程和paddleocr的安装类似,也是首先要安装paddlepaddle。

先安装 paddlepaddle,我安装的是paddlepaddle 2.3.2

注意,这里有一个坑,我的电脑系统是mac os 10.15.7,安装最新版本 paddlepaddle报错:

# 安装语句
# 新建conda 
 conda create -n paddle_env python=3.8
 conda activate paddle_env
 conda install paddlepaddle==2.3.2 --channel https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/Paddle/
# 进入python检查是否安装成功
 python3
 import paddle
 paddle.utils.run_check()
# Success!

再安装 paddlenlp,我安装的是paddlenlp==2.4.2


# 安装paddlenlp
 pip install  paddlenlp==2.4.2
# 安装过程中 提示paddle-bfloat 缺少一个版本,进行安装
pip install paddle-bfloat==0.1.7
# 重新安装paddlenlp
 paddlenlp  pip install  paddlenlp==2.4.2

1.2 Taskflow API文本抽取————从文本中抽取关键词

官方使用说明文档见 PaddleNLP一键预测功能:Taskflow API

安装了paddlenlp之后,就可以调用相关函数实现关键词抽取功能,代码在文章中有,我就不再粘贴了。
目标:输入一段文本,返回关键信息。
调用的函数:paddlenlp ——Taskflow ,实际上是用的是paddlenlp 的UIE功能。

我这里对两句话做一个实践:

  1. 可以看到下表中的第一条,就是文章中给的例子,是可以解析出相关关键词的。
  2. 但是这里有一个问题点。就是很多简历中是不会有,姓名、性别、出生日期这几个说明文字的。对于这样的文本就很难解析出来,见表格中的第二行。
序号简历文本抽取结果-关键信息
1“姓名:小李,性别:男,出生日期:2000年04月,民族:汉族,联系电话:13602173xxx”在这里插入图片描述
2小李男2000年04月汉族13602173xxx在这里插入图片描述

在1.2节的后半部分,是一个实践,首先从word格式(表格)的简历中提取文本信息,然后进行实体抽取:

  1. 从word格式的简历中提取文本信息:表格类型的word格式的提取,使用了python-docx方法,参考 简历信息提取(一):PDFPlumber和PP-Structure 中介绍的方法。
  2. 输入文本,返回实体抽取结果。

1.3 Taskflow API文档抽取

1.2节 介绍的是 实际上是用的是paddlenlp 的UIE功能。
1.3节 介绍了paddlenlp 的 UIE-X, 是UIE的升级版本,可以支持图片类型输入。 详细参考 UIE升级点解读:新增文档信息抽取能力,基于Prompt的小样本能力厉害了!OCR、版面分析、信息抽取一应俱全
注意,paddlenlp 的 UIE-X 需要PaddleNLP v2.5 以上
在这里插入图片描述

遗留问题:

  1. ppocr和ppnlp关系
  2. ppocr和ppstructure关系
  3. ppstructure 的几大能力:版面分析、图像方向分类、表格识别,都是干嘛的
  • 5
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值