大话文本识别经典模型：CRNN

最新推荐文章于 2024-05-07 23:56:57 发布

雪饼ai

最新推荐文章于 2024-05-07 23:56:57 发布

阅读量7.8k

点赞数 4

分类专栏：人工智能文章标签：人工智能深度学习文字识别文本检测 CRNN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rogerchen1983/article/details/91910514

版权

本文介绍了CRNN模型在文本识别中的应用，包括其端到端训练、无需字符分割的特点。CRNN由卷积层、循环层（双向LSTM）和转录层（CTC模型）组成，适用于场景文字识别。建议阅读相关论文深入理解。

摘要由CSDN通过智能技术生成

在前一篇文章中（详见本博客文章：大话文本检测经典模型 CTPN），介绍了文字识别在现实生活中的广泛应用，以及文字识别的简单流程：

其中“文本检测”、“文本识别”是其中两个关键环节，“文本检测”已经在前一篇文章中介绍了详细的介绍，本文主要介绍“文本识别”的经典模型CRNN及其原理。

在介绍CRNN之前，先来梳理一下要实现“文本识别”的模型，需要具备哪些要素：

（1）首先是要读取输入的图像，提取图像特征，因此，需要有个卷积层用于读取图像和提取特征。具体原理可详见本公众号的文章：白话卷积神经网络（CNN）；

（2）由于文本序列是不定长的，因此在模型中需要引入RNN（循环神经网络），一般是使用双向LSTM来处理不定长序列预测的问题。具体原理可详见本公众号的文章：白话循环神经网络（RNN）；

（3）为了提升模型的适用性，最好不要要求对输入字符进行分割，直接可进行端到端的训练，这样可减少大量的分割标注工作，这时就要引入CTC模型（Connectionist temporal classification，联接时间分类），来解决样本的分割对齐的问题。

（4）最后根据一定的规则，对模型输出结果进行纠正处理，输出正确结果。

以上就是“文本识别”模型的几个必须具备的要素。

接下来要介绍的CRNN模型，也是基本由这几部分组成的。

1、什么是CRNN

CRNN（Convolutional Recurrent Neural Network，卷积循环神经网络），是华中科技大学在发表的论文《An End-to-End Trainable Neural Network for Image-based Sequence Recognition and ItsApplication to Scene Text Recognition》提出的一个识别文本的方法，该模型主要用于解决基于图像的序列识别问题，特别是场景文字识别问题。

CRNN的主要特点是：

（1）可以进行端到端的训练；

最低0.47元/天解锁文章

关注

4
点赞
踩
27

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。