All You Need Is Boundary阅读笔记

本文提出了一种端到端的文本识别方法,通过预测文本实例的边界点来代替矩形框或分割mask。这种方法能更好地描述不规则文本形状,减少背景噪声的影响,并简化端到端OCR系统的构建。网络由多方向矩形检测器、边界点检测网络和识别网络组成,通过预训练和微调进行训练。实验证明,该方法在标准数据集上实现了最优的表现。
摘要由CSDN通过智能技术生成

不同于现存的方法将文本检测视为边框提取或实例分割,我们在每一个文本实例的边界上定位了一系列点。通过这些边界点,我们建立了一个简单有效的架构用于端到端文本识别,可以阅读任意形状的文本。
文本检测和识别之间具有相关性。
提出了一种端到端的可训练网络用于任意形状文本识别,无需字符级注释,取代检测一个矩形边框,我们的检测通过定义文本实例的边界来完成。更具体地说,我们的检测目标是预测一组边界点,其可以更灵活的描述场景文本的形状。使用边界点对于建立端到端OCR系统有三个优势1)不规则文本区域的CNN特征可以使用边界点更准确的描述,从而有效地消除了背景噪声对后续识别的干扰;2)通过边界点,不规则文本可以更简单的转换或矫正为规则文本,这是一个序列识别模型的现实输入。与最近的不规则文本识别模型(Shi et al. 2019)类似,这种转换操作在CNN中可以简单实现且可微。3)在训练识别模型时,通过反向传播可以很容易地细化边界点的位置,充分享受识别阶段对检测性能的提高。因此,边界点似乎是一种合理的表示,可以平滑有效地桥接文本检测和识别模块。
然而,由于文本形状和尺度的多样性,直接检测边界点是具有挑战性的。为了有效提取文本边界点,我们采取了一种由粗到精的策略:首先,通过一个两阶段的CNN检测器检测每个文本实例的最小外接矩形,然后,边界点预测在最小外接矩形中进行。我们的实验验证了所提出的边界点检测方法的有效性。在几个标准数据集上检测和端到端识别都达到了最优表现。
贡献:1)提出了边界点表示用于端到端文本检测,比矩形框或分割mask更适合连接检测与识别。2)设计了端到端可训练的网络用于联合优化边界点检测和文本识别,可以识别单向和弯曲文本。
相关工作:为了阅读端到端的阅读任意形状的文本&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值