简历解析步骤(第二步)技术与实现(2)识文字,做分类:姓名

本文介绍了简历解析的第二步,即从OCR提取的文字中识别并分类关键信息,如姓名、性别、年龄等。通过使用百度AI的OCR服务,结合算法和机器学习(如ML.NET或Python库),对中文简历进行处理,最终实现信息的准确分类和存储。通过不断学习和纠错,提升模型的识别准确率,目标接近100%。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简历解析步骤(第二步)技术与实现(2)识文字,做分类

继上篇文章理论:

简历解析,常见接收到的简历是图片或文档的方式,我们需要先将简历中的文字提取出来,然后再对文字进行算法分析以及AI训练,从而实现解析简历与提高解析度的效果。

先介绍我们整个解析过程和训练过程需要用到的技术:

  1. 文字识别:OCR服务(百度 AI 开放平台:通用文字识别)
  2. 算法(伪代码:不限语言)
  3. AI 机器学习 (ML.NET 或者 Python 一些算法库)

步骤: 第一步:通过文字识别的方式,提取出里面所有有价值的内容(可以转换的所有信息:因为本次讲解都是中文,所以接下来都以解析中文简历来作为例子)第二步:通过算法进行识别,找到符合要求的信息如:姓名、性别、年龄、学历、工作经历等。第三步:将识别出来的信息进行本地存储,然后通过人工去纠正错误,将该版本作为样板,交由机器学习算法进行学习运算,计算出模型。第四步:将得出来的模型再识别简历达到一定的量,再纠错,再交由机器学习算法进行学习运算,反复学习,直至通过率接近 100%。

步骤实现:

第一步:识文字,取信息

细节可以参考上一篇文章

我们写一个简历
在这里插入图片描述
获得结果:
在这里插入图片描述

第二步:识文字,做分类

我们通过百度云读取出来的文字信息,是一个区域一个区域的字符串。这个时候,我们要将这些字符串做一些分类:基本信息(38项)

#1. 姓名 2. 姓氏 3. 性别 4. 年龄 5. 身高 6. 体重 7. 婚姻状态 8. 出生日期 9. 户口地址 10. 籍贯地址 11. 身份证号 12. 民族 13. 国籍 14. 政治面貌 15. 语言能力 16. 英语水平 17. 计算机水平 18. 博客/主页地址 19. 工作年限 20. 参加工作时间 21. 当前职位(如果没离职:当前公司的职位,如果离职:上一家公司的职位) 22. 当前职能类型 23. 当前单位 24. 所处行业 25. 在职状态 26. 当前薪资 27. 工作地点 28. 工作性质(全职、兼职、实习) 29. 有否海外留学经历 30. 有否海外工作经历 31. 毕业时间 32. 毕业学校 33. 毕业学校类型 34. 所学专业 35. 学历 36. 是否统招

姓名分类:(核心代码如下)配合识别出来的文字使用

		/// <summary>
        ///     获取姓名
        /// </summary>
        /// <param name="words">内容</param>
        /// <returns></returns>
        static List<string> VerificationName(string words)
        {
            List<string> resultInfo = new List<string>(); ;
            //情况:姓名:XXX,这种半格式文本情况下,基本可以百分百确定“:”后面是姓名
            if (words.Contains("姓名:"))
                resultInfo.Add(words);

            //情况:姓名:XXX,这种半格式文本情况下,基本可以百分百确定“:”后面是姓名
            if (words.Contains("姓名:"))
                resultInfo.Add(words);

            //情况:name:XXX,这种半格式文本情况下,基本可以百分百确定“:”后面是姓名
            if (words.ToLower().Contains("name:"))
                resultInfo.Add(words);

            //情况:XXX,不是半格式文本的情况,我们要通过姓氏来确定
            if (words.ToLower().Contains("name:"))
                resultInfo.Add(words);

            return resultInfo;
        }

将识别出来的信息放到上面的函数分类后,得到如下结果
在这里插入图片描述

要源码的,评论区留下邮箱,或者加qq群:546496965

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

盗理者

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值