OCR识别经典论文CRNN+CTC

最新推荐文章于 2024-04-27 10:11:17 发布

kouki1995

最新推荐文章于 2024-04-27 10:11:17 发布

阅读量1.9k

点赞数 1

分类专栏： OCR 文章标签：深度学习 ocr 循环神经网络卷积神经网络人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baidu_17504843/article/details/103599315

版权

OCR 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

OCR-1 An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

前言
解决的问题
特点
框架

前言

在自然环境中，识别文字对于计算机视觉和机器学习而言是一个非常具有挑战性的任务。传统的光学字符识别（OCR）系统主要适用于从文件中扫描信息，而从自然视角中获取文字则面临更多麻烦，失真、遮蔽、方向模糊、复杂背景和不同视角都会对识别产生影响。

解决的问题

基于图像的序列识别问题，如场景文本识别（scene text recognition）。

特点

输入长度可变；端到端训练；模型小；粗粒度标签；

框架

CRNN

提出了CRNN，即结合CNN与RNN，CNN可以直接建模包含任意长度序列信息的图像，不需要对序列中的每个字符进行标注，最终生成一组特征向量表示，输入到RNN中。RNN采用了LSTM变体（2层双向LSTM），可以捕捉上下文信息，最终输出每个特征向量表示对应的标签分布。

CTC

Connectionist temporal classifaction: labelling unsegmented sequence data with recurrent neural network paper

它扩展了RNN的输出层，在输出序列和最终标签之间增加了多对一的空间映射，并在此基础上定义了CTC Loss函数；
它借鉴了HMM（Hidden Markov Model）的Forward-Backward算法思路，利用动态规划算法有效地计算CTC Loss函数及其导数，从而解决了RNN端到端训练的问题；
结合CTC Decoding算法RNN可以有效地对序列数据进行端到端的预测；

转录层

通过去重去空格生成最后的识别结果。利用CTC layer(Connectionist Temporal Classification)实现。

可以不使用词典，直接使用概率最大的标签作为预测结果；
可以使用字典。如果使用整个词典，搜索空间太大；折中，将搜索范围缩减到：与概率最大的标签序列的编辑距离在一定范围的单词 ;

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。