简历解析中实体抽取优化方法

文章介绍了在简历解析中如何利用深度学习模型(如BERT+CRF)结合实体词典和规则来提高命名实体识别的准确性。通过预训练模型清洗实体词典,增强非英文拉丁化语言的识别,并使用正则表达式规则抽取电话和邮箱等特定实体。同时,采用二分类模型过滤公司实体,从而提升整体实体抽取的准确率和线上处理效率。
摘要由CSDN通过智能技术生成

背景介绍

在招聘场景中,无论是候选人还是招聘hr都会面临上传各种格式的简历问题,为了高效的管理和使用简历数据,通常会对上传的简历进行自动解析,得到结构化的简历数据。在简历解析中通常都会使用命名实体识别技术提取简历中的关键实体,包括姓名、学校名、公司名、专业、职位等。

基于深度学习模型的命名实体识别技术通常需要很多高质量的标注数据,而针对简历数据进行高质量标注是比较复杂且费时的一个过程,所以基于模型的命名实体识别技术在实际使用过程中会存在一定的问题。

针对关键易出错的实体类型,结合实体词典、模型过滤和规则,可以有效地补充部分遗漏实体以及过滤掉错误识别的一些冗余实体。

总体方案

模型抽取实体

以现在主流模型BERT+CRF作为实体抽取基础

词典抽取实体

针对简历,从开放域获取学校、公司、专业、职位等词语,这些词语属于英文以及不同的拉丁化的语言,这部分词语用于补充在英文简历中,模型对实体预测的遗漏。

构建高质量的实体词典能够提高实体预测的准确率,而来自开放域的实体词质量不高,因此本发明使用如下步骤对实体进行进一步清洗:

  1. 从开放域获取学校、公司、专业、职位等实体词
  2. 为了直接将在conll-2003、ontonotes5以及公开英文简历数据集上的预训练模型的知识融入到词典中,通过将实体词填入模板中,如针对公司类型实体词,构造:

“He works in {company}”

如针对Microsoft公司,构造“He works in Microsoft”,

针对专业类型实体词,构造:

“Bachelor in {major}”

如针对gestion cultura专业,构造“Bachelor in gestion cultural”

  1. 将构造好的句子使用多个预训练模型进行预测,将多个模型的输出以投票的方式进行结合 ,若结果与待确认实体类型相同,则保留该实体,加入词库,否则清洗改实体。
  2. 将清洗后的四类实体词库,构建AC自动机,并用于线上的NER工作。

整个流程的示意图如下:

词库的构建过程

词典NER的好处在于,能够提取更多非英文、但是却是拉丁化语言的(如西班牙语、马来语、法语等)实体,而通过清洗实体,能够提高实体提取的准确率

规则识别实体

简历中的电话、邮箱、学历、起止时间等实体,通过正则表达式的规则进行针对性提取,由于电话、邮箱实体的特征较明显,因此,使用模式匹配能够很好的提取出简历中电话与邮箱实体,若简历中有多个实体,根据这两类实体所在简历中的所属部分(section)、文本上下文、邮箱前缀与英文姓名的jaccard距离等进行综合的规则打分,选择简历中与候选人最相关的电话与邮箱实体。最后在本发明中,电话与邮箱实体的提取方式如下图所示:

二分类过滤实体

xgb二分类模型目前用于公司实体判断,会利用上下文和富文本信息综合判断实体(公司左侧信息、公司本身信息、公司右侧信息、板块信息、公司名大小写类型、关键信息占比、时间数,是否有职位、字体大小、文字是否加粗、与姓名相似度、是否有其他公司名),主要作用是过滤掉正文中的公司实体

抽取效果

实体抽取准确率大幅度提升,并解决了模型结果很难快速人工干预的问题,提升了线上case解决效率

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值