LOMO阅读笔记

最新推荐文章于 2021-01-05 15:18:33 发布

qq_40874603

最新推荐文章于 2021-01-05 15:18:33 发布

阅读量289

点赞数

分类专栏：笔记文章标签： python 深度学习

本文链接：https://blog.csdn.net/qq_40874603/article/details/107554522

版权

LOMO是文本检测的新方法，针对长文本和弯曲文本，通过直接检测器、迭代优化模块和形状表示模块逐步定位并精确表示文本。在多个数据集上达到最优效果，证明了其鲁棒性和准确性。

摘要由CSDN通过智能技术生成

Look More Than Once：一个准确的任意形状文本检测器
受限于CNNs的感受野和矩形或四边形边框的简单表示形式，先前的方法在处理长文本和弯曲文本时表现效果不好。为了解决这两个问题，提出了一种新的文本检测器LOMO，多次逐步定位文本。
LOMO由三个部分组成：一个直接检测器DR，一个迭代优化模块IRM，一个形状表示模块SEM。首先，由DR分支生成一个四边形的文本建议。接下来，IRM基于初步的建议通过迭代优化逐步感知整个长文本。最后，SEM用于重建不规则文本更精确的表示通过考虑文本实例的几何属性，包括文本区域，文本中心线和边界偏移。在ICDAR2017-RCTW,SCUT-CTW1500,Total-Text,ICDAR2015和ICDAR17-MLT达到了state-of-the-art证明了LOMO的鲁棒性和有效性。
当检测长文本时，先前的检测方法如EAST,Deep Regression不能给出一个完整的边界框，因为整个文本实例的大小远超过文本检测其的感受野，CNN不能编码充足的信息来捕捉长距离的依赖。主流的单步检测器通过一次感知定位文本，与人类视觉系统不同。对于长文本实例，人类通常一次看一部分，多次看完整行文本。
除此之外，大部分方法对文本实例采取了简单的表示，如矩形，旋转矩形或四边形，在面对弯曲文本时会失败。简单的文本表示会覆盖很多非文本区域，不利于后续的识别。一个灵活的检测器可以显著提高文本检测的质量。
为了解决这两个问题，在单步检测器DR的基础上提出了迭代模块IRM和形状表示模块SEM，可以end-to-end训练。对于长文本实例，DR生成文本建议框，IRM通过一次或多次回归坐标偏移使其贴近ground truth。依赖于位置attention机制，IRM注意这些位置，改善pro