版权声明:本文为博主原创文章,无需授权即可转载,甚至无需保留以上版权声明,转载时请务必注明作者。
https://blog.csdn.net/weixin_43453386/article/details/86605054
java——》解析简历
一、半格式化文本特征分析
具体流程:
1、 word 简历分块处理;
2、 每一块内容进行了分割处理
3、 文本分成两部分处理(基本信息和复杂信息);
4、 对处理的文本再进行一次回溯处理,找出第一次未能分析的内容;
5、 针对重点字段再解析
1、内容组织——》元
- 特点:
离散
具有独立完整意义的文本段 - 分割标志:
如回车、空格、冒号等等 或内容的(如标志性词语)
2、内容结构——》项
- 特点:
相对独立的
具有完整意义
绝大多数项都具有“标题+内容”的结构
3、项的内容——》分成两大类:基本项和复杂项
- 基本项:通常是“一个标题元+一个内容元”的形式(一对一)
- 复杂项:通常是“一个标题元+多个内容元”的形式(一对多)
4、简历分块
- 基本项:集中的区域里(文本首尾区域)
- 复杂项:集中分布一个区域内(如:工作经验)
5、文本内容标识性的强弱——》强标识、弱标识、无标识
- 强标识:大概率50%以上,如"姓名"
- 弱标识:可能属于多个类别或者不具有标识类别的效果
- 无标识:不具有标识其类别的特点,也不能通过上下文来判别其类别,通常来说是因为不含有任何必要关键字造成的
6、文本的组织顺序
- 策略:二级识别
- 做法:
第一级识别:每一条基本信息看作一个目标识别单元,复杂信息模块按整体看作一个目标识别单元
第二级识别:针对复杂信息模块,最终识别出所需要的全部子字段
二、简历分块算法
1、描述
- 1.明确强标识界限标志的模块,如:教育经历模块,工作经历模块、自我评价模块等等;
- 2.模块以正则表达式的形式存入字典,形成预设值;
- 3.通过匹配的方法,找出目标简历中相关的分割标志,得到预设值集合;
- 4.统计已知标志的特征信息,得到分割标志的一般特征向量;
- 5.计算每一段落的文本向量和特征向量的夹角;