java——》解析简历

版权声明:本文为博主原创文章,无需授权即可转载,甚至无需保留以上版权声明,转载时请务必注明作者。
https://blog.csdn.net/weixin_43453386/article/details/86605054

一、半格式化文本特征分析

具体流程:
1、 word 简历分块处理;
2、 每一块内容进行了分割处理
3、 文本分成两部分处理(基本信息和复杂信息);
4、 对处理的文本再进行一次回溯处理,找出第一次未能分析的内容;
5、 针对重点字段再解析

1、内容组织——》元

  • 特点:
    离散
    具有独立完整意义的文本段
  • 分割标志:
    如回车、空格、冒号等等 或内容的(如标志性词语)

2、内容结构——》项

  • 特点:
    相对独立的
    具有完整意义
    绝大多数项都具有“标题+内容”的结构

3、项的内容——》分成两大类:基本项和复杂项

  • 基本项:通常是“一个标题元+一个内容元”的形式(一对一)
  • 复杂项:通常是“一个标题元+多个内容元”的形式(一对多)

4、简历分块

  • 基本项:集中的区域里(文本首尾区域)
  • 复杂项:集中分布一个区域内(如:工作经验)

5、文本内容标识性的强弱——》强标识、弱标识、无标识

  • 强标识:大概率50%以上,如"姓名"
  • 弱标识:可能属于多个类别或者不具有标识类别的效果
  • 无标识:不具有标识其类别的特点,也不能通过上下文来判别其类别,通常来说是因为不含有任何必要关键字造成的

6、文本的组织顺序

  • 策略:二级识别
  • 做法:
    第一级识别:每一条基本信息看作一个目标识别单元,复杂信息模块按整体看作一个目标识别单元
    第二级识别:针对复杂信息模块,最终识别出所需要的全部子字段

二、简历分块算法

1、描述

  • 1.明确强标识界限标志的模块,如:教育经历模块,工作经历模块、自我评价模块等等;
  • 2.模块以正则表达式的形式存入字典,形成预设值;
  • 3.通过匹配的方法,找出目标简历中相关的分割标志,得到预设值集合;
  • 4.统计已知标志的特征信息,得到分割标志的一般特征向量;
  • 5.计算每一段落的文本向量和特征向量的夹角;
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值