Coovally任务详解之文字检测任务-CSDN博客

本文链接：https://blog.csdn.net/CooVally_AI/article/details/128325091

文字印刷媒介作为目前存贮、传播、交换信息和传播文化的主要途径之一，检测、控制和评价文字的印刷质量是企业生产和管理工作中重要的环节。影响文字印刷质量评价结果的因素很多，如墨色密度、反差清晰、有无断笔漏画等，且一直以来，对于这些指标的评价都是采用人眼视觉来进行的。这样的检测方式已经不能满足人们对效率及质量的要求，技术更新以待解决。在这种状况下，引进机器视觉技术、图像处理模式识别等手段，对文字印刷质量进行检测和评价，可以极大的解决这一问题。

基于机器视觉系统，可以对文字进行识别检测，例如文字印刷检测、字符检测、喷码文字缺陷检测等，Coovally针对文字检测做到了高精度和低成本，且仅需5步就可以完成一个模型！

下面就是Coovally文字检测的详细步骤：

说明：当前Coovally文字检测任务仅支持Icdar格式数据集,请提前按要求准备好数据集，具体数据集要求可参考Icdar格式数据集说明。

ICDAR数据集格式说明

ICDAR（International Conference on Document Analysis and Recognition）数据集官方地址，目前ICDAR包含的格式由ICDAR2013、ICDAR2015、ICDAR2017。

·ICDAR 2013 包含聚焦场景文本的229个训练图像和233个测试图像。它继承了ICDAR 2003数据集的大部分样本。他们都是真实世界的图像，显示标志牌、书籍、海报或其他物品上的文字。文字都是英文的且水平对齐。标注是轴对齐的边界框，共划分出1015个裁剪的单词图像。该数据集被广泛用于测试文本探测器的性能，通常被称为ICDAR 2013。

ICDAR 2013格式如下：

标注格式：xmin, ymin, xmax, ymax, text-

举例：38, 43, 920, 215, “Tiredness”

·ICDAR2015包含1,000个训练图像和500个测试图像。这些图像是使用谷歌眼镜获得的，没有考虑视角、位置或图像质量。文本实显示方向随意、也可能尺寸很小或低分辨率，使其比ICDAR 2013更加难以识别。完整的数据集有7,548个带有四边形形式标注的文本实例。它通常用于基准测试，现在称作ICDAR 2015。

ICDAR 2015格式如下：

标注格式：x1,y1,x2,y2,x3,y3,x4,y4,text 其中，x1,y1为左上角坐标,x2,y2为右上角坐标,x3,y3为右下角坐标,x4,y4为左下角坐标。

举例：(### 表示文字无法辨认)

377,117,463,117,465,130,378,130,Genaxis Theatre

374,155,409,155,409,170,374,170,###

ICDAR 当有字符但是模糊看不到时标签为###，ICDAR2013的标签中包含5列，前4列为矩形的左上和右下坐标，第5列为字符的内容。ICDAR2015用了平行四边形表示，因此包含了4个点的坐标，按顺时针方向摆放，第9列为字符内容。

·ICDAR 2017 MLT5旨在对多语言场景下的文本检测和识别任务进行基准测试。它包含7,200个训练自然场景图像、1,800个验证自然场景图像和9,000个测试自然场景图像，包含6种不同语言的文本（拉丁语、阿拉伯语、孟加拉语、韩语、平假名、片假名和符号）。标注以四边形、语言类别和转录（UTF-8文本）的形式提供。

Coovally当前支持ICDAR2015格式的数据集，但在模型训练时需要先将ICDAR2015转成COCO格式。