OCR解码

最新推荐文章于 2024-07-19 15:59:36 发布

WX Chen

最新推荐文章于 2024-07-19 15:59:36 发布

阅读量109

点赞数

文章标签： ocr

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kl1411/article/details/131505583

版权

OCR解码是文字识别中最为核心的问题。本文主要对OCR的序列方法CTC、Attention、ACE进行介绍，微信OCR算法就是参考这三种解码算法的。

不同的解码算法的特征提取器可以共用，后面接上不同的解码算法就可以实现文字识别了，以下用CRNN作为特征提取器。

CRNN的特征抽取器由一个CNN和一个BiLSTM组成。

CRNN特征提取器流程如下：
1.假设输入图像尺寸为32x100x3(HxWxC)，经过CNN转换成1x25x512(HxWxC)。
2.将CNN的输出维度转换为25个1x512的序列，送入深层双向LSTM中，得到CRNN的输出特征，维度转换成为25xn(n是字符集合总数)。

OCR文字识别的解码主要难点在于如何进行输入输出的对齐。
如果每个1xn预测一个字符，那么可能会出现多个1xn预测同一个字符，这样子得到的最终结果会产生重复字符。所以需要设计针对文字识别的解码算法来解决输入输出的对齐问题。

目前我了解到的主要有三种解码方法，可以解决OCR解码的一对多问题，分别为CTC、Attention和ACE三种。

CTC

CTC是最为经典的OCR解码算法，假设CRNN特征抽取器的输出维度Txn，其中T=8，n包含blank(记作 - )字符(blank字符是间隔符，意思是前后字符不连续)。对每一列1xn进行softmax得到概率最大的字符，得到的最终序列需要去除连续的重复字符，比如最终得到的序列为-stt-ate，那么去重合并后就得到state序列。

CRNN+CTC的文字识别算法
https://jishuin.proginn.com/p/763bfbd634c3

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
OCR解码

CTC是最为经典的OCR解码算法，假设CRNN特征抽取器的输出维度Txn，其中T=8，n包含blank(记作 - )字符(blank字符是间隔符，意思是前后字符不连续)。对每一列1xn进行softmax得到概率最大的字符，得到的最终序列需要去除连续的重复字符，比如最终得到的序列为-stt-ate，那么去重合并后就得到state序列。2.将CNN的输出维度转换为25个1x512的序列，送入深层双向LSTM中，得到CRNN的输出特征，维度转换成为25xn(n是字符集合总数)。CRNN+CTC的文字识别算法。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

WX Chen 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。