OCR入门学习

最新推荐文章于 2024-07-02 10:11:44 发布

某一天10_21

最新推荐文章于 2024-07-02 10:11:44 发布

阅读量558

点赞数

文章标签：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42934657/article/details/127749004

版权

ocr：光学字符识别（识别文字）

分为两个部分：文字检测+文字识别

提取图像中的文字，并转换成文本形式，供后续NLP使用

文字检测：dbnet 、CTPN

dbnet： 原理是基于分割算法。对于一般分割算法流程：先通过网络输出文本分割的概率图，然后使用设定阈值将概率图转化为二值图，然后通过后处理得到检测结果（文本框坐标）。但是缺点在于阈值的选取非常关键。

概率图（probability map）：图中每个像素点的值为该位置属于文本区域的概率

阀值图（threshold map）：图中每个像素点的值为该位置的二值化阈值，大于阈值为文字区域，反之为背景。

近似二值图（approximate binary map）：由概率图和阈值图通过 DB 算法计算得到（P-T），图中像素的值为 0 或 1。

CTPN：文本检测，本质上也属于物体检测，适用于从左往右书写的文本，从上往下或者弯曲的效果不是很好.

VGG提取特征、BLSTM融入上下文信息，基于RPN完成检测

文字识别：（ABINET、CRNN、NRTR、ROBUST_SCANNER、SAR、SATRN、SEG、TPS）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
OCR入门学习

对于一般分割算法流程：先通过网络输出文本分割的概率图，然后使用设定阈值将概率图转化为二值图，然后通过后处理得到检测结果（文本框坐标）。近似二值图（approximate binary map）：由概率图和阈值图通过 DB 算法计算得到（P-T），图中像素的值为 0 或 1。阀值图（threshold map）：图中每个像素点的值为该位置的二值化阈值，大于阈值为文字区域，反之为背景。概率图（probability map）：图中每个像素点的值为该位置属于文本区域的概率。ocr：光学字符识别（识别文字）
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。