简历信息提取二:PaddleNLP完成简历信息抽取

fcf3d5d2475b755376d64364d91685e2.gif

向AI转型的程序员都关注了这个号👇👇👇

0 项目背景

信息抽取任务旨在从非结构化的自然语言文本中提取结构化信息。在本系列项目中,将讨论如何又好又快地实现一个简历信息提取任务。

作为该系列文章的第二篇,我们将通过paddlenlp.Taskflow提供的文本及文档通用信息抽取能力,实现开箱即用的简历信息抽取。

简历信息提取(一):PDFPlumber和PP-Structure

1 一键实体抽取

实体抽取,又称命名实体识别(Named Entity Recognition,简称NER),是指识别文本中具有特定意义的实体。在简历信息抽取任务中,用户可以自己定义实体类别,如姓名、出生日期、电话等。

我们可以使用PaddleNLP Taskflow API提供的开箱即用、适配多场景的开放域通用信息抽取工具Taskflow("information_extraction"),一键完成简历中常用实体信息的抽取。

代码地址:

关注微信公众号 datayx  然后回复 简历  即可获取。

f9e71cb8f292e1f3bfa4469d2096adc9.png

1496e100ecc6cf29b797ad89fef487f5.png

e39d35b074a08ea20a755247a49f46ca.png

60e32178295144b52586b3c53c2bca24.png

198782f3dacd451274cacb4b5c012bf9.png

5db864901002f78667bcaf4573402298.png

d2481a77b79a007172904104cb64e38c.png

513fa3527493f118121f7804f2811349.png

1.3 Taskflow API文档抽取

2023.1.12发布的PaddleNLP v2.5在产业信息抽取应用上的一个重大更新,就是发布文档信息抽取UIE-X,也就是说,Taskflow API支持的输入格式,不再只是文本内容,也可以是图片了。这对我们做简历信息抽取可是个好消息——如果我们收到的简历是扫描件、图片或者模板花里胡哨的文档,这下可以直接转为图片送给Taskflow API看看效果了,PaddleNLP已经贴心的帮我们把PaddleOCR集成好了!9739a9bef6e447e6d12ab66959613d74.jpeg

923c76ab3ca0977abc628b8770e317e0.png

5123342fd077015d012c6ef16d39c349.png

ac8ccb0f25cdc3d16026d60b38a0e46d.png

7d66cbc4ef23667664a7fcfd4bfed9ce.jpeg

cce1cab732affb8d51642649e97b33c2.png

2 批量处理

实际业务中,公司的HR往往要面对堆积如山的简历,业务上显然没办法接受一个个文件进行实体抽取的,想要让AI成为HR筛选简历的得力小帮手,我们还需要对输出结果进行组织。在项目中,结合数据集的实际情况,我们设计的简历批量信息抽取思路如下:

  • 首先用户需要将简历文件按格式(word,pdf)分别放置在对应目录下

  • word格式的简历通过Taskflow API文本信息抽取得到实体信息

  • pdf或者图片格式的简历统一整理为jpeg格式,然后通过Taskflow API文档信息抽取得到实体信息

  • 将文件名、实体信息逐行存入excel文件中,便于HR做后续的人工补充和筛选工作

6f54023144a0e470ff12d96a48d0faa7.png

2.1 word格式简历批量信息抽取

准备一个统一的简历信息抽取结果处理脚本,将Taskflow API提取的信息进一步按照schema进行归类。

72b84b6ea85b8b8082679f22d82c7f22.png

a990db764c4e5f1688b49ec1ad280f9b.png

39e3df32b593bb5313c164d162d46563.png

55a8de0e6aacb8184c0128503784c852.png

b36f669c300b9609702f9eb029504af4.png

2.2 PDF/图片格式简历批量信息抽取

下面我们再看看图片格式的信息抽取,整体的思路虽然大同小异,但是这里有个地方稍微复杂一些,就是要多一步判断下,目录里的文件是pdf还是jpeg格式。

另一方面,涉及到多页的pdf,每页信息都要试着提取下。

9bda7acb2216f2c77938ee86c819bfa9.png

63540e2eb57ab57ae7f2b88485893242.png

e3ca376bf2836f4391d16e6fcd2929d8.png

b6ed735bd193bf3e5ee6db532a5ab4d9.png

e98277b8d542bc5af0a33acc604c5594.png

我们可以看到,即使是通过图片转换后再进行实体信息抽取,得到的简历信息还是挺完整的。看来,有PaddleNLP这个好帮手,到招聘季,HR们可以省下好多力气了!78e4dcc9924efb6eb6a2e9a7ed04b16e.jpeg

377b95e4c83e50df42a514dc02343a6d.png

3 小结

在本项目中,我们使用PaddleNLP开放域信息抽取工具UIE Taskflow,开发了一个可以对Word、PDF、图片格式的简历文件进行批量信息提取的工具,生成的结果可直接供企业HR进行直接补充、筛选和加工。

当然,我们也可以发现,直接用现有的预训练模型,抽取结果还有不少缺失。在后续的项目中,我们尝试将基于项目使用的数据集,用PaddleNLP迁移学习,训练一个精度更高的简历信息抽取模型,并将其在线部署。

机器学习算法AI大数据技术
 搜索公众号添加: datanlp

长按图片,识别二维码
阅读过本文的人还看了以下文章:
TensorFlow 2.0深度学习案例实战

基于40万表格数据集TableBank,用MaskRCNN做表格检测

《基于深度学习的自然语言处理》中/英PDF

Deep Learning 中文版初版-周志华团队

【全套视频课】最全的目标检测算法系列讲解,通俗易懂!

《美团机器学习实践》_美团算法团队.pdf

《深度学习入门:基于Python的理论与实现》高清中文PDF+源码

《深度学习:基于Keras的Python实践》PDF和代码

特征提取与图像处理(第二版).pdf

python就业班学习视频,从入门到实战项目

2019最新《PyTorch自然语言处理》英、中文版PDF+源码
《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码

《深度学习之pytorch》pdf+附书源码

PyTorch深度学习快速实战入门《pytorch-handbook》

【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

《Python数据分析与挖掘实战》PDF+完整源码

汽车行业完整知识图谱项目实战视频(全23课)

李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材

笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!
《神经网络与深度学习》最新2018版中英PDF+源码

将机器学习模型部署为REST API
FashionAI服装属性标签图像识别Top1-5方案分享

重要开源!CNN-RNN-CTC 实现手写汉字识别

yolo3 检测出图像中的不规则汉字
同样是机器学习算法工程师,你的面试为什么过不了?

前海征信大数据算法:风险概率预测

【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类

VGG16迁移学习,实现医学图像识别分类工程项目
特征工程(一)

特征工程(二) :文本数据的展开、过滤和分块

特征工程(三):特征缩放,从词袋到 TF-IDF

特征工程(四): 类别特征

特征工程(五): PCA 降维

特征工程(六): 非线性特征提取和模型堆叠

特征工程(七):图像特征提取和深度学习

如何利用全新的决策树集成级联结构gcForest做特征工程并打分?

Machine Learning Yearning 中文翻译稿
蚂蚁金服2018秋招-算法工程师(共四面)通过

全球AI挑战-场景分类的比赛源码(多模型融合)

斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)

python+flask搭建CNN在线识别手写中文网站
中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程
不断更新资源
深度学习、机器学习、数据分析、python
 搜索公众号添加: datayx
### 关于通用信息抽取大模型 PP-UIE #### 模型概述 PP-UIE 是一个强大的统一信息抽取框架,能够处理多种自然语言处理任务。该模型基于 PaddleNLP 平台开发,在多个下游任务上表现出色[^2]。 #### 功能特性 - **多模态支持**:不仅限于纯文本输入,还具备 OCR 和版面分析功能,适用于复杂场景下的文档理解。 - **高性能推理引擎**:兼容 CPU 及 Nvidia GPU 部署环境,并默认集成了 Paddle Inference、ONNX Runtime、OpenVINO 以及 TensorRT 推理后端,确保高效运行性能[^4]。 #### 安装与配置指南 为了使用 PP-UIE 进行模型微调并保存结果到特定位置,可以通过如下 Python 代码片段实现: ```python from paddlenlp import Taskflow # 初始化 UIE 模型实例 schema = ["时间", "地点"] # 自定义实体类别列表 ie = Taskflow("information_extraction", schema=schema, model="paddlenlp/PP-UIE-1.5B") # 微调过程中的超参数设置(此处仅为示意) training_args = { 'output_dir': './results', } # 执行微调操作并将最终版本存储起来 model.save_pretrained(training_args['output_dir']) ``` 上述脚本展示了如何加载预训练权重文件 `paddlenlp/PP-UIE-1.5B` 来初始化一个新的信息提取器对象;接着通过调整某些关键参数完成定制化需求;最后将经过优化后的网络结构及其对应的参数持久化至本地磁盘中以便后续应用或分享给其他开发者继续迭代改进。 #### 获取更多资源 对于希望深入了解 PP-UIE 或者尝试其最新扩展组件如 UIE-X 的研究人员来说,官方 GitHub 页面提供了详尽的技术文档和支持材料,涵盖了从基础概念讲解一直到高级应用场景实践等多个方面的内容[^3]。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值