自然场景文本处理论文整理(2)STN-OCR

本文介绍了STN-OCR,一个基于深度学习的单神经网络模型,用于自然场景文本的检测和识别。与传统多步骤方法不同,STN-OCR采用单一网络学习半监督方式,结合空间变换器网络和文本识别网络,实现了端到端优化。通过在多个任务和数据集上的实验,展示了模型在处理不同文本检测和识别任务的能力,达到了有竞争力的先进水平。
摘要由CSDN通过智能技术生成

今天是进入公司实习的第三周了,在小组内负责的工作主要是和自然场景文本检测相关的内容。这里把看过的论文做一下翻译和整理,也方便自己日后查看。
Paper:STN-OCR: A single Neural Network for Text Detection and Text Recognition
Github地址:https://github.com/Bartzi/stn-ocr

摘要

检测和识别自然场景图像中的文本是一项具有挑战性但尚未完全解决的任务。近年来,已经提出了几种试图解决两个子任务(文本检测和文本识别)中的至少一个的新系统。在本文中,我们提出了STN-OCR,这是迈向场景文本识别的半监督神经网络的一步,可以进行端到端的优化。与大多数由多个深度神经网络和几个预处理步骤组成的现有作品相比,我们建议使用单个深度神经网络,该网络学习以半监督方式从自然图像中检测和识别文本。 STN-OCR是一个集成并共同学习空间变换器网络的网络[16],可以学习检测图像中的文本区域,以及文本识别网络,它采用识别的文本区域并识别其文本内容。我们研究了我们的模型在一系列不同任务(行为的检测和识别以及文本行)上的行为方式。公共基准数据集的实验结果显示了我们的模型处理各种不同任务的能力,而整体网络结构没有实质性变化。

1、介绍

文本在我们的日常生活中无处不在。文本可以在文档,道路标志,广告牌和其他对象(如汽车或电话)上找到。自动检测和读取自然场景图像中的文本是系统的重要组成部分,可用于几个具有挑战性的任务,如基于图像的机器翻译,自动驾驶汽车或图像/视频索引。近年来,在自然场景中检测文本和识别文本的任务已经引起了计算机视觉和文档分析社区的极大兴趣。此外,在计算机视觉的其他领域最近的突破[10,16,25,26]使得能够创建比以前更好的场景文本检测和识别系统[5,9,28]。

尽管可以看出光学字符识别(OCR)的问题已经解决了打印文档文本,但是检测和识别自然场景图像中的文本仍然是具有挑战性的。包含自然场景的图像表现出大量的光照变化,透视扭曲,图像质量,文本字体,不同的背景等。大多数现有的研究工作开发了端到端的场景文本识别系统,包括复杂的两步,其中第一步是检测图像中的文本区域,第二步是识别该识别区域的文本内容。大多数现有作品只关注这两个步骤中的一个。

在本文中,我们提出了一个解决方案,该解决方案由单个深度神经网络(DNN)组成,可以学习以半监督的方式检测和识别文本。这与现有作品相反,在现有作品中,文本检测和文本识别系统以完全监督的方式单独训练。最近的工作[3]表明,卷积神经网络(CNNs)能够学习如何解决复杂的多任务问题,同时以端到端的方式进行训练。

我们的动机是利用CNN的这些功能,创建一个端到端的场景文本识别系统,通过将任务划分为更加像人类一样的行为,分成较小的子任务并相互独立地解决这些子任务。为了实现这一行为,我们学习了一个DNN,它能够将输入图像划分为子任务(单个字符,单词甚至文本行)并相互独立地解决这些子任务。这是通过联合学习使用循环

  • 4
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值