一、研究背景
1、photoOCR (CNN)2、Reading Text in the Wild with convolutional Neural Networks(CNN)
detection+recogntion
3、A Novel Connectionist(RNN)
4、word spottting(空间映射)
5、CRNN优点
(1)支持端到端训练
(2)支持任意长度字符序列识别,且不需要自符分割、水平尺度归一化
(3)支持无预定义字典识别,且在预定义词典、无预定义词典上都取得显著性能
(4)模型更轻量级
二、网络结构
(一)CNN(序列特征提取)
(二)RNN(Bi-LSTM:字符预测输出)
1、RNN(前提还要)
RNN存在梯度消失/爆炸问题
2、LSTM(增加记忆细胞)
3、双向LSTM(增加记忆细胞)
y1向量大小为n_class*1
(三)Transcription转入 layers(训练:实现输出御图像标签对齐)
1、CTC
(四)Beam Search(预测)
保留top(n)
四、总结