CRNN文字识别

最新推荐文章于 2023-04-18 00:24:31 发布

Coding的叶子

最新推荐文章于 2023-04-18 00:24:31 发布

阅读量2.6k

点赞数 1

分类专栏： NLP 文字识别 python 文章标签： nlp 文字识别中文识别

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/suiyingy/article/details/118729434

版权

python 同时被 3 个专栏收录

85 篇文章 83 订阅

订阅专栏

11 篇文章 1 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

要点：CNN+RNN+CTC

CNN：通过卷积操作，将h x w x c图像转换为1xTxC特征图。1为特征图的高，T为特征图的宽，C为特征图的通道数。以高度为32的特征图来说，出卷积层为，用4层池化层可将高度降低到2，再用一个核为2、pad为0的卷积即可将高度降为1。

RNN：RNN一般采用两层的双向LSTM，输入的序列长度为CNN卷积后特征的长度T，序列中每一个特征尺度为CNN卷积后的通道数C。那么，

（1）第一层LSTM输入数据的维度为（T,N,C），N为batchsize大小。第一层LSTM的inputsize为C，隐藏层hiddensize可以自定义M，如256，第一层LSTM输出为MX2。再接一个全连接层，输出由Mx2转为M。

（2）第二层LSTM输入数据的维度为（T,N,M），inputsize为M，hiddensize自定义M2，如256，那么输出为M2x2。由于RNN需要对文字进行识别，假设需要识别的文字数量为K，那么LSTM的输出需要通过全连接层输出（K+1）个维度，每一个维度可以用于表征相应文字的概率。其中，数量增加1个是因为CTC中会增加空白字符。第二层LSTM同样需要一个全连接层，将输出由M2x2转为K+1。

RNN层最后的输出维度为（T,N,K+1）。

CTC：CTC通过引入空白字符来计算Loss损失，好处是不需要把文字识别位置与原图所在位置对齐，可以自动进行训练。在推断时，选出结果不为占位符，并且相邻文字如果一样则只取一次，这样就可以得到预测的结果。

参考文章：一文读懂CRNN+CTC文字识别 https://zhuanlan.zhihu.com/p/43534801

pytorch参考代码：https://github.com/ooooverflow/chinese-ocr

Coding的叶子

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
CRNN文字识别

要点：CNN+RNN+CTCCNN：通过卷积操作，将h x w x c图像转换为1xTxC特征图。1为特征图的高，T为特征图的宽，C为特征图的通道数。以高度为32的特征图来说，出卷积层为，用4层池化层可将高度降低到2，再用一个核为2、pad为0的卷积即可将高度降为1。RNN：RNN一般采用两层的双向LSTM，输入的序列长度为CNN卷积后特征的长度T，序列中每一个特征尺度为CNN卷积后的通道数C。那么，（1）第一层LSTM输入数据的维度为（T,N,C），N为batchsize大小。第一层LSTM的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Coding的叶子 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。