LOMO阅读笔记

LOMO是文本检测的新方法,针对长文本和弯曲文本,通过直接检测器、迭代优化模块和形状表示模块逐步定位并精确表示文本。在多个数据集上达到最优效果,证明了其鲁棒性和准确性。
摘要由CSDN通过智能技术生成

Look More Than Once:一个准确的任意形状文本检测器
受限于CNNs的感受野和矩形或四边形边框的简单表示形式,先前的方法在处理长文本和弯曲文本时表现效果不好。为了解决这两个问题,提出了一种新的文本检测器LOMO,多次逐步定位文本。
LOMO由三个部分组成:一个直接检测器DR,一个迭代优化模块IRM,一个形状表示模块SEM。首先,由DR分支生成一个四边形的文本建议。接下来,IRM基于初步的建议通过迭代优化逐步感知整个长文本。最后,SEM用于重建不规则文本更精确的表示通过考虑文本实例的几何属性,包括文本区域,文本中心线和边界偏移。在ICDAR2017-RCTW,SCUT-CTW1500,Total-Text,ICDAR2015和ICDAR17-MLT达到了state-of-the-art证明了LOMO的鲁棒性和有效性。
当检测长文本时,先前的检测方法如EAST,Deep Regression不能给出一个完整的边界框,因为整个文本实例的大小远超过文本检测其的感受野,CNN不能编码充足的信息来捕捉长距离的依赖。主流的单步检测器通过一次感知定位文本,与人类视觉系统不同。对于长文本实例,人类通常一次看一部分,多次看完整行文本。
除此之外,大部分方法对文本实例采取了简单的表示,如矩形,旋转矩形或四边形,在面对弯曲文本时会失败。简单的文本表示会覆盖很多非文本区域,不利于后续的识别。一个灵活的检测器可以显著提高文本检测的质量。
为了解决这两个问题,在单步检测器DR的基础上提出了迭代模块IRM和形状表示模块SEM,可以end-to-end训练。对于长文本实例,DR生成文本建议框,IRM通过一次或多次回归坐标偏移使其贴近ground truth。依赖于位置attention机制,IRM注意这些位置,改善pro

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值