java——》解析简历

最新推荐文章于 2024-07-21 11:03:00 发布

小仙。

最新推荐文章于 2024-07-21 11:03:00 发布

阅读量3.6k

点赞数 4

分类专栏： Java 文章标签：解析简历

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43453386/article/details/86605054

版权

版权声明：本文为博主原创文章，无需授权即可转载，甚至无需保留以上版权声明，转载时请务必注明作者。
https://blog.csdn.net/weixin_43453386/article/details/86605054

java——》解析简历

一、半格式化文本特征分析
二、简历分块算法
三、分割算法
四、信息处理算法
五、回溯算法
六、重点字段分析算法

一、半格式化文本特征分析

具体流程：
1、 word 简历分块处理；
2、每一块内容进行了分割处理
3、文本分成两部分处理（基本信息和复杂信息）；
4、对处理的文本再进行一次回溯处理，找出第一次未能分析的内容；
5、针对重点字段再解析

1、内容组织——》元

特点：
离散
具有独立完整意义的文本段
分割标志：
如回车、空格、冒号等等　或内容的（如标志性词语）

2、内容结构——》项

特点：
相对独立的
具有完整意义
绝大多数项都具有“标题+内容”的结构

３、项的内容——》分成两大类：基本项和复杂项

基本项：通常是“一个标题元+一个内容元”的形式（一对一）
复杂项：通常是“一个标题元+多个内容元”的形式（一对多）

4、简历分块

基本项：集中的区域里（文本首尾区域）
复杂项：集中分布一个区域内（如：工作经验）

5、文本内容标识性的强弱——》强标识、弱标识、无标识

强标识：大概率50%以上，如"姓名"
弱标识：可能属于多个类别或者不具有标识类别的效果
无标识：不具有标识其类别的特点，也不能通过上下文来判别其类别，通常来说是因为不含有任何必要关键字造成的

6、文本的组织顺序

策略：二级识别
做法：
第一级识别:每一条基本信息看作一个目标识别单元，复杂信息模块按整体看作一个目标识别单元
第二级识别:针对复杂信息模块，最终识别出所需要的全部子字段

二、简历分块算法

1、描述

1.明确强标识界限标志的模块，如：教育经历模块，工作经历模块、自我评价模块等等；
2.模块以正则表达式的形式存入字典，形成预设值；
3.通过匹配的方法，找出目标简历中相关的分割标志，得到预设值集合；
4.统计已知标志的特征信息，得到分割标志的一般特征向量；
5.计算每一段落的文本向量和特征向量的夹角；

最低0.47元/天解锁文章

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。