CVPR2019文字检测归纳

最新推荐文章于 2023-11-14 14:00:00 发布

Secortot

最新推荐文章于 2023-11-14 14:00:00 发布

阅读量5.6k

点赞数

文章标签：计算机视觉人工智能目标检测文字检测

本文链接：https://blog.csdn.net/Secortot/article/details/103180979

版权

本文综述了CVPR2019年6篇关于文字检测的论文，重点探讨了如何处理曲线文字和密集文字的检测问题。文章介绍了Progressive Scale Expansion Network (PSENet)和条件空间膨胀（CSE）机制，这两个方法通过分割思路解决了传统检测方法的局限性。同时，还讨论了其他检测方法，如形状感知嵌入和迭代修正模块，以提高检测准确性和鲁棒性。

摘要由CSDN通过智能技术生成

综述

文字检测的方法可以分为基于检测和基于分割两种思路。各自有优缺点，前者对于处理曲线文字和非常见尺度文字效果不佳，后者对于多尺度问题的鲁棒性强一些，但是对于密集文字容易产生错误，会将不同的实例分割到一起。

CVPR2019共找到6篇文字检测相关的论文，这几篇处理的都是曲线文字的问题。前两篇都是依据点膨胀/区域膨胀的思路，处理的是文本实例分布过近和任意形状的问题。前四篇都是关于实例级别的检测，第五篇是基于字符级别的检测，检测字符的思路与centernet类似。

数据集

ICDAR2013：229训练样本，233测试样本，英文字符，单词级别的标注，方形Bbox

ICDAR2015：1000训练样本，500测试样本，英文字符，单词级别的标注，四边形Bbox

ICDAR2017：7200训练，1800验证，9000测试，包含9种语言的场景文字检测，四边形Bbox

MSRA-TD500：300训练，200测试。包含室内室外场景，包含英语和汉语，四边形Bbox

TotalText：1255训练，300测试，侧重于曲线文字，采用多边形标注和词语级翻译

CTW-1500：1000训练，500测试，每个图片都包含曲线文本，由14个顶点的多边形标注

一、Shape Robust Text Detection with Progressive Scale Expansion Network

解决的两个问题：一是检测的标注是Bbox，无法适用于任意形状的文字（感觉中文没有这种问题）第二个是两个文本距离太近时会产生误检（多个实例检测为一个）。提出了Progressive Scale Expansion Network (PSENet)。用基于逐像素分类的分割思想解决了第一个问题，通过对文本实例生成多个尺度的kernel，并对最小的kernel使用渐进尺度膨胀算法解决了第二个问题。在CTW1500数据集上达到了74.3%的F1值和27FPS，在不考虑速度的情况下达到了82.2%的F1值，比目前的SOTA 高了6.6%。同时在其余数据集的多语言、多文字朝向的任务上也取得了很好的结果。

kernel：网络对于文本实例的多个分割区域的预测

使用渐进尺度膨胀算法的三个因素：一是对于离的近的文本，使用最小的kernel之间的边界距离较远，二是使用的最小kernel无法覆盖整个文本实例，三是使用这个算法将最小区域扩大到整个实例区域简单且高效。

网络结构图如下，总体来看输入图片在融合了低层次的纹理特征和高层次的语义特征之后会生成n个分割结果，S1是最小的分割kernel，Sn是最大的分割kernel即原始标注的mask。然后使用渐进尺度膨胀算法对S1中的kernel进行扩充至原始形状，得到最终结果。

渐进尺度膨胀算法

对于最小的kernel，逐步融合更大的kernel，直到Sn。对于有重叠的实例会在像素填充时产生冲突，作者采用的是先到先服务的方法。

标签生成

原始标注作为最大kernel的标注，通过对原始标注多边形使用Vatti clipping算法进行放缩得到不同尺度kernel的标注。

不同尺度kernel的缩放因子

m是最小kernel的缩放因子，因此可以通过m和n两个超参数控制，线性的从m增加到1。

损失函数设计

其中Lc和Ls代表完整文本实例和缩小的文本实例的损失

通常情况下，文本实例只在自然图像中占据一个很小的区域，这在使用二进制交叉熵损失时会使网络输出偏向于非文本区域。因此采用了Dice系数。Si,x,y 和Gi,x,y是网络第i个kernel的分割输出mask和标注mask在像素(x,y)的值。此外对于类似于文本笔划的格子、栅栏等，在训练时对Lc采用OHEM。