大话文本识别经典模型:CRNN

本文介绍了CRNN模型在文本识别中的应用,包括其端到端训练、无需字符分割的特点。CRNN由卷积层、循环层(双向LSTM)和转录层(CTC模型)组成,适用于场景文字识别。建议阅读相关论文深入理解。
摘要由CSDN通过智能技术生成

在前一篇文章中(详见本博客文章:大话文本检测经典模型 CTPN),介绍了文字识别在现实生活中的广泛应用,以及文字识别的简单流程:

其中“文本检测”、“文本识别”是其中两个关键环节,“文本检测”已经在前一篇文章中介绍了详细的介绍,本文主要介绍“文本识别”的经典模型CRNN及其原理。

 

在介绍CRNN之前,先来梳理一下要实现“文本识别”的模型,需要具备哪些要素:

(1)首先是要读取输入的图像,提取图像特征,因此,需要有个卷积层用于读取图像和提取特征。具体原理可详见本公众号的文章:白话卷积神经网络(CNN);

(2)由于文本序列是不定长的,因此在模型中需要引入RNN(循环神经网络),一般是使用双向LSTM来处理不定长序列预测的问题。具体原理可详见本公众号的文章:白话循环神经网络(RNN);

(3)为了提升模型的适用性,最好不要要求对输入字符进行分割,直接可进行端到端的训练,这样可减少大量的分割标注工作,这时就要引入CTC模型(Connectionist temporal classification, 联接时间分类),来解决样本的分割对齐的问题。

(4)最后根据一定的规则,对模型输出结果进行纠正处理,输出正确结果。

以上就是“文本识别”模型的几个必须具备的要素。

接下来要介绍的CRNN模型,也是基本由这几部分组成的。

 

1、什么是CRNN

CRNN(Convolutional Recurrent Neural Network,卷积循环神经网络),是华中科技大学在发表的论文《An End-to-End Trainable Neural Network for Image-based Sequence Recognition and ItsApplication to Scene Text Recognition》提出的一个识别文本的方法,该模型主要用于解决基于图像的序列识别问题,特别是场景文字识别问题。

CRNN的主要特点是:

(1)可以进行端到端的训练;

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值