两篇OCR结合深度学习的文献读后感

最新推荐文章于 2023-02-16 18:44:34 发布

见忘丶

最新推荐文章于 2023-02-16 18:44:34 发布

阅读量397

点赞数

分类专栏：科研立项

本文链接：https://blog.csdn.net/qq_43564050/article/details/88875059

版权

科研立项专栏收录该内容

2 篇文章 0 订阅

订阅专栏

《基于深度学习图像标题生成算法及应用》

《基于深度学习和语言模型的印刷文字 OCR 系统》

整理出与项目进展有关的小小认识，以下按顺序分别命名为文献1和文献2

图像识别类问题

在不同的图像字符识别背景下（文献1背景为验证码；文献2为电商图片），基于深度学习的模型，以上两篇文献分别完成了各自OCR（光学字符识别）系统的构建。同样，对于笔者自己的课题，即完成在购物小票背景下的字符识别，同样也需要构建与之相对应的OCR系统。

文献1中，作者摒弃传统数字图像处理方法，构建基于深度学习的识别系统。该系统由编码器-解码器构成，分别采用VGG卷积神经网络和LSTM作为支撑，同时对past-feeding和past-attention的图像标题算法做出改进。

文献2中，作者同样摒弃了传统方法，建立了由四大部分构成的完整OCR系统。首先，作者在第一部分利用卷积和池化来进行图像的特征提取，在此方法下所得的图像特征也可简化后期操作；第二部分：文字定位，利用邻近搜索的方法整合特征碎片，再用前后统计的方法对同一行字符进行分割；第三部分则是光学识别，基于CNN深度学习模型对百万样本进行训练，得到了较好的单字识别模型；最后为提升效果，作者加入了语言识别模型，同时用Viterbi算法进行动态规划。

文献2部分具体操作

对图像预处理时，先将图像进行聚类，分割得到5个图层；再进行卷积操作，目的是不断提取高级抽象特征（卷积核，不断发现的细节纹理特征）；根据像素来划分连通区域，再加入抗腐蚀要求，得到新的五个特征层图像。进入池化步骤，将五个特征层进行叠加，留下每层特征最强的图像共同组成，保留尽可能多的（纹理/图像背景？）信息。

文献1

对不同的背景问题，选取相对应的网络（如VGG），和该网络下合适的层数来解决问题。

进行算法的选取：（编码器（VGG）解码器（LSTM））

算法的可视化检验