简历解析,常见接收到的简历是图片或文档的方式,我们需要先将简历中的文字提取出来,然后再对文字进行算法分析以及AI训练,从而实现解析简历与提高解析度的效果。
先介绍我们整个解析过程和训练过程需要用到的技术:
文字识别:OCR服务(百度 AI 开放平台:通用文字识别)
算法(伪代码:不限语言)
AI 机器学习 (ML.NET 或者 Python 一些算法库)
步骤: 第一步:通过文字识别的方式,提取出里面所有有价值的内容(可以转换的所有信息:因为本次讲解都是中文,所以接下来都以解析中文简历来作为例子)第二步:通过算法进行识别,找到符合要求的信息如:姓名、性别、年龄、学历、工作经历等。第三步:将识别出来的信息进行本地存储,然后通过人工去纠正错误,将该版本作为样板,交由机器学习算法进行学习运算,计算出模型。第四步:将得出来的模型再识别简历达到一定的量,再纠错,再交由机器学习算法进行学习运算,反复学习,直至通过率接近 100%。
步骤实现:
第一步:识文字,取信息
通过百度 AI 开放平台,识别文字,访问下面的网址,可以跳转到相关文档:
(https://ai.baidu.com/tech/ocr_general)
2021年10月29日:当下识别的图片要求以及说明注意事项
1、图像数据,base64 编码后进行 urlencode ,要求 base64 编码和 urlencode 后大小不超过 4M ,最短边至少 15px ,最长边最大 4096px ,支持 jpg/jpeg/png/bmp格式
优先级:image > url > pdf_file,当image字段存在时,url、pdf_file字段失效
2、 图片完整链接(url) rl,url 长度不超过 1024字节,url 对应的图片 base64 编码后大小不超过 4M,最短边至少 15px ,最长边最大 4096px ,支持 jpg/jpeg/png/bmp 格式
优先级:image > url > pdf_file,当image字段存在时,url字段失效
请注意关闭URL防盗链
3、 PDF文件,base64编码后进行urlencode,要求base64编码和urlencode后大小不超过4M,最短边至少15px,最长边最大4096px
优先级:image > url > pdf_file,当image、url字段存在时,pdf_file字段失效
4、需要识别的PDF文件的对应页码,当 pdf_file 参数有效时,识别传入页码的对应页面内容,若不传入,则默认识别第 1 页
第二步:识文字,做分类
我们需要明白分类的范围、通过了解简历信息,我们可以将之分类为下面 15种分类,里面分别有子项
基础信息(55项)
教育经历(9项)
工作经历 (19项)
项目经历(7项)
实习经历(1项)
社会实践(1项)
在校活动(1项)
个人技能(3项)
自我评价(1项)
兴趣爱好(1项)
语言技能(3项)
所获证书(1项)
所获奖励(1项)
培训经历(6项)
所学课程(1项)
基础信息的项目:(55项)
基本信息(38项)
#1. 姓名 2. 姓氏 3. 性别 4. 年龄 5. 身高 6. 体重 7. 婚姻状态 8. 出生日期 9. 户口地址 10. 籍贯地址 11. 身份证号 12. 民族 13. 国籍 14. 政治面貌 15. 语言能力 16. 英语水平 17. 计算机水平 18. 博客/主页地址 19. 工作年限 20. 参加工作时间 21. 当前职位(如果没离职:当前公司的职位,如果离职:上一家公司的职位) 22. 当前职能类型 23. 当前单位 24. 所处行业 25. 在职状态 26. 当前薪资 27. 工作地点 28. 工作性质(全职、兼职、实习) 29. 有否海外留学经历 30. 有否海外工作经历 31. 毕业时间 32. 毕业学校 33. 毕业学校类型 34. 所学专业 35. 学历 36. 是否统招
联系方式(7项)
#1. 邮箱 2. 电话号码 3. qq 4. 微信号 5. 邮编 6. 所在城市 7. 当前通讯地址
期望工作(10项)
#1. 职位名称 2. 期望工作单位 3. 期望薪资 4. 期望薪资(下限) 5. 期望薪资(上限) 6. 期望行业 7. 到岗时间 8. 期望工作性质 9. 当前离职/在职状态 10. 期望工作地址
教育经历(9项)
#1. 开始时间 2. 结束时间 3. 学校名称 4. 学校类型 5. 院系 6. 专业 7. 是否统招 8. 成绩 9. 学历
工作经历 (19项)
#1. 开始时间 2. 公司 3. 公司性质 4. 公司规模 5. 公司描述 6. 行业 7. 职位 8. 职能类型 9. 所在部门 10. 工作性质 11. 工作薪资 12. 下属人数 13. 汇报对象 14. 工作地点 15. 离职原因 16. 工作时间 17. 工作能力 18. 工作内容 19. 离职时间 20. 项目经历 21. 实习经历 22. 社会实践 23. 在校活动 24. 个人技能 25. 我评价 26. 兴趣爱好 27. 语言技能 28. 所获证书 29. 所获奖励 30. 培训经历 31. 所学课程
项目经历(7项)
#1. 开始时间 2. 结束时间 3. 项目名称 4. 所在公司 5. 担任职位 6. 项目内容 7. 项目职责
培训经历(6项)
#1. 开始时间 2. 结束时间 3. 培训机构 4. 培训地点 5. 所获证书 6. 培训内容
技能列表(3项)
#1.技能名称 2. 熟练程度 3.技能使用时间
语言技能(3项)
#1.语言名称 2. 证书名称 3.证书成绩
第三步:训智能,解析成
通过算法完成分类工作后,将识别出来的信息进行本地存储起来,交由机器学习算法进行学习运算,计算出模型。
访问下面的网址,可以跳转到相关文档:
(https://docs.microsoft.com/zh-cn/dotnet/machine-learning/tutorials/github-issue-classification)
第四步:智能训,更智能
将得出来的模型再识别简历达到一定的量,再纠错,再交由机器学习算法进行学习运算,反复学习,直至通过率接近 100%。
————————————————
版权声明:本文为CSDN博主「盗理者」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_36051316/article/details/121050050
我是程序员娟娟,
致力将工作中遇到的问题和解决方案记录下来,
分享给更多需要的同行。
如果对你有帮助,不妨点个关注吧!