CRNN文字识别

11 篇文章 1 订阅
1 篇文章 0 订阅

要点:CNN+RNN+CTC

CNN:通过卷积操作,将h x w x c图像转换为1xTxC特征图。1为特征图的高,T为特征图的宽,C为特征图的通道数。以高度为32的特征图来说,出卷积层为,用4层池化层可将高度降低到2,再用一个核为2、pad为0的卷积即可将高度降为1。

RNN:RNN一般采用两层的双向LSTM,输入的序列长度为CNN卷积后特征的长度T,序列中每一个特征尺度为CNN卷积后的通道数C。那么,

(1)第一层LSTM输入数据的维度为(T,N,C),N为batchsize大小。第一层LSTM的inputsize为C,隐藏层hiddensize可以自定义M,如256,第一层LSTM输出为MX2。再接一个全连接层,输出由Mx2转为M。

(2)第二层LSTM输入数据的维度为(T,N,M),inputsize为M,hiddensize自定义M2,如256,那么输出为M2x2。由于RNN需要对文字进行识别,假设需要识别的文字数量为K,那么LSTM的输出需要通过全连接层输出(K+1)个维度,每一个维度可以用于表征相应文字的概率。其中,数量增加1个是因为CTC中会增加空白字符。第二层LSTM同样需要一个全连接层,将输出由M2x2转为K+1。

RNN层最后的输出维度为(T,N,K+1)。

CTC:CTC通过引入空白字符来计算Loss损失,好处是不需要把文字识别位置与原图所在位置对齐,可以自动进行训练。在推断时,选出结果不为占位符,并且相邻文字如果一样则只取一次,这样就可以得到预测的结果。

参考文章:一文读懂CRNN+CTC文字识别https://zhuanlan.zhihu.com/p/43534801

pytorch参考代码:https://github.com/ooooverflow/chinese-ocr

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Coding的叶子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值