两篇OCR结合深度学习的文献读后感

《基于深度学习图像标题生成算法及应用》

《基于深度学习和语言模型的印刷文字 OCR 系统》

     整理出与项目进展有关的小小认识,以下按顺序分别命名为文献1和文献2

图像识别类问题

     在不同的图像字符识别背景下(文献1背景为验证码;文献2为电商图片),基于深度学习的模型,以上两篇文献分别完成了各自OCR(光学字符识别)系统的构建。同样,对于笔者自己的课题,即完成在购物小票背景下的字符识别,同样也需要构建与之相对应的OCR系统。

    文献1中,作者摒弃传统数字图像处理方法,构建基于深度学习的识别系统。该系统由编码器-解码器构成,分别采用VGG卷积神经网络和LSTM作为支撑,同时对past-feeding和past-attention的图像标题算法做出改进。

    文献2中,作者同样摒弃了传统方法,建立了由四大部分构成的完整OCR系统。首先,作者在第一部分利用卷积和池化来进行图像的特征提取,在此方法下所得的图像特征也可简化后期操作;第二部分:文字定位,利用邻近搜索的方法整合特征碎片,再用前后统计的方法对同一行字符进行分割;第三部分则是光学识别,基于CNN深度学习模型对百万样本进行训练,得到了较好的单字识别模型;最后为提升效果,作者加入了语言识别模型,同时用Viterbi算法进行动态规划。

文献2部分具体操作

     对图像预处理时,先将图像进行聚类,分割得到5个图层;再进行卷积操作,目的是不断提取高级抽象特征(卷积核,不断发现的细节纹理特征);根据像素来划分连通区域,再加入抗腐蚀要求,得到新的五个特征层图像。进入池化步骤,将五个特征层进行叠加,留下每层特征最强的图像共同组成,保留尽可能多的(纹理/图像背景?)信息。
 

文献1

对不同的背景问题,选取相对应的网络(如VGG),和该网络下合适的层数来解决问题。

进行算法的选取:(编码器(VGG)解码器(LSTM))

算法的可视化检验
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值