构建简历解析工具

本文介绍了作者构建简历解析器的过程,包括数据收集、预处理、数据提取方法(Baseline与最佳方法)以及评估策略。作者使用Apache Tika解析PDF,通过关键字匹配和机器学习模型(如朴素贝叶斯)提取信息,最后使用fuzzy-wuzzy方法评估解析效果。
摘要由CSDN通过智能技术生成

作者|Low Wei Hong 编译|VK 来源|Medium

当我还是一名大学生的时候,我很好奇自动提取简历信息是如何工作的。我将准备各种格式的简历,并上传到招聘网站,以测试背后的算法是如何工作的。我想自己尝试建一个。因此,在最近几周的空闲时间里,我决定构建一个简历解析器。

一开始,我觉得很简单。只是用一些模式来挖掘信息,结果发现我错了!构建简历解析器很困难,简历的布局有很多种,你可以想象。

例如,有些人会把日期放在简历的标题前面,有些人不把工作经历的期限写在简历上,有些人不会在简历上列出公司。这使得简历解析器更难构建,因为没有要捕获的固定模式。

经过一个月的工作,根据我的经验,我想和大家分享哪些方法工作得很好,在开始构建自己的简历分析器之前,你应该注意哪些事情。

在详细介绍之前,这里有一段视频短片,它显示了我的简历分析器的最终结果(https://youtu.be/E-yMeqjXzEA)


数据收集

我在多个网站上搜了800份简历。简历可以是PDF格式,也可以是doc格式。

我使用的工具是Google的Puppeter(Javascript)从几个网站收集简历。

数据收集的一个问题是寻找一个好的来源来获取简历。在你能够发现它之后,只要你不频繁地访问服务器,抓取一部分就可以了。

之后,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值