文件识别文字的大体流程

幼zi园小霸王

已于 2024-09-11 10:09:37 修改

阅读量311

点赞数 6

文章标签： elasticsearch 大数据搜索引擎

于 2024-07-08 23:11:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_66452396/article/details/140275806

版权

启动项目的前提（新手去公司必备的技能）：git clone克隆项目，指定分支更换项目的maven位置改application.yml配置文件为自己的部分

接口：/ocr/general 常规识别【将文件中的文本内容提取成json格式】

传入参数：

blankDetection 空白页检测，如果开启则对应的有一个blankIndex字段，值为空白页的索引，从0开始

langType 语言类型，中文

需要识别的文件（目标文件）

流程：

前端发送请求，首先根据请求参数封装map类型的参数集合。
判断传入的文件对象和fileBase64（文件Base64数据）是否为空，这是是对文件的非空判断。
将该识别任务存储为一个task对象，并返回一个task id。
将该文件对象拷贝到指定的src路径下
将 task id 发送到 active MQ中,指定destination，等待MQ接收这个id，然后直接返回处理成功的响应结果。
MQ监听指定destination的消息，如果存在则取出消息，找到对应的task，然后处理该task。
首先更新task状态为处理中，然后通过指定的构造参数获取到源路径对象以及目标路径对象。
执行核心任务：将目标文件中的文本内容提取出来，将其转成一个json格式。
- 首先尝试获取目标文件的格式，这里调用的是TypeProbe中的type方法，从HTTP头部中获取文件类型。
- 然后如果请求头中有参数的话，需要封装一下参数，然后调用由c++编写的执行引擎将目标文件中的内容解析成json对象。
- 将json对象存入指定的文件中。
更新task状态为成功，并异步返回处理结果，然后调用query接口查询识别后的文本内容即可。

/ocr/arrurate 精确识别，也是转成txt文本，除了常规识别出的内容之外，还有每行内容的边界，并且会列出每个字符的边界信息。

修复语义识别的bug：原先解析出来的json数据有blankIndex字段（空白页）的值以及解析出的内容，但是实际存放到文件中的是解析出来的内容，返回list类型。

解决办法：首先判断blankIndex字段是否有值（空白页），如果有则将blankIndex和pages（识别出的内容）对应的key和value存放到map中，然后然后map类型。

后续读取的话，取出json对象，先判断是否是map类型，如果是，则将对应的key和value取出来存放到结果中返回，否则是list存放到结果中返回。

幼zi园小霸王

关注

6
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

幼zi园小霸王 CSDN认证博客专家 CSDN认证企业博客

码龄3年

25: 原创

102万+: 周排名

5万+: 总排名

1万+: 访问

: 等级

473: 积分

196: 粉丝

220: 获赞

4: 评论

192: 收藏

私信

关注

热门文章

最新评论

SpringBoot项目集成MinIO
h132434354: 老师，我在上传文件时，报NoClassDefFoundError: org/simpleframework/xml/core/Persister，是什么原因呢
MySQL三大日志
CSDN-Ada助手: 不知道 MySQL入门技能树是否可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
Redis中String类型的底层原理？
CSDN-Ada助手: 恭喜用户第14篇博客问世，探讨了Redis中String类型的底层原理，内容相当有深度和价值！希望您能继续保持创作的热情和专注，让更多人受益。或许下一步可以考虑扩展主题范围，探索其他Redis数据类型的底层原理，相信会有更多的收获和启发。期待您的更多精彩作品！
sorted set(zset)的底层实现原理
CSDN-Ada助手: 恭喜用户发布了第15篇博客，标题为“sorted set(zset)的底层实现原理”，内容相信对读者们有很大的帮助。希望用户能够继续保持创作的热情和努力，不断深入探究各种技术原理和应用场景。建议下一步可以尝试结合实际案例分析，或者分享一些实践经验，以便更好地帮助读者理解和应用所学知识。期待用户更多精彩的博客内容，加油！
十大排序算法之7种
CSDN-Ada助手: 恭喜您写了第16篇博客，对十大排序算法的介绍十分详细，让我受益匪浅。希望您能继续保持创作的热情，不断分享更多有价值的知识。或许下一步可以考虑结合实际案例，深入分析不同排序算法的应用场景，让读者更易于理解和掌握。期待您的下一篇作品，谢谢您的分享！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。