中文 Photo OCR
国内外在中文场景图像文字识别的研究极少。究其原因,一是汉字类别庞大,在照片中进行文字识别的难度较大;二是中文场景图像数据集的缺乏。
一个场景文本识别系统通常由两个主要部分组成:场景文本检测器和识别器。前者以边界框的形式对图像中的字符/文本进行检测,而后者从边界框中裁剪的图像中识别文本(字符序列)。但也有一些尝试旨在以“端到端”的方式直接输出文本,即在单个神经网络(过程)中无缝集成场景文本检测和识别。
对于场景文本识别系统来说,端到端并不是强制性的,因为在某些情况下,场景文本检测器预测的边界框中检测到的图像块可能太模糊或太小而无法识别。然而,“端到端”方法的优点可能是内部反馈以及检测和识别模块之间的无缝交互。
街景数据集
SVT、ICDR2013、ICDAR2015、COCO-Text、SynthText很少有包含中文文字/字符的图片。
中文数据集的主要有CTW、RCTW、ICPR 2018 MYWI(in 2017&2018)。RCTW (a.k.a CTW-12k)是ICDAR-2017 competition dataset for scene text detection and recognition,其包含12263张标注数据集。ICPR 2018 MYWI主要包含了网络图像的文本检测,不符合街景要求。
ICDAR-ReCTS
美团本次公开的数据,由遍布全国的市场人员所拍摄的众多门脸招牌图片组成,共25000张。每张图片是由完全独立的不同个人,采用不同设备,在不同地点,不同时间和不同环境下所拍摄的不同商家。该数据集以中文文字为主,也包含一定数量的英文和数字,英文和数字的占比介于 10% 和 30% 之间。标注内容比较完备,每张图片均标注了单个字符的位置和文本,以及各字符串的位置和文本。是难得的用于研发和评估中文识别技术的数据集。其中,20000张图片用于训练,2000张用于验证,3000张用于测试。
中文街景数据集CTW
- 主要包含32285张图片,共计1018402个汉字,3850个汉字类别。主要来自清华-腾讯100K数据集和腾讯街景数据集。图片分辨率为2048*2048。所有街景图像都是以固定距离(10-20米)拍摄,因此如果两个连续图像有70%的重合则被移除,故不包含多视角数据。其中训练集:检测测试集:识别测试集=8:1:1。该数据集可以用于自然场景文字的检测和识别2个任务,独立于OCR技术,相当于photo OCR。
链接: arxiv-Chinese Text in the Wild.
链接: CTW Dataset. - 注释包括:(1) 每个汉字的检测框(2) 一行汉字的检测框(3) 是否遮挡(occlusion)、是否有复杂背景(complex background )、是否扭曲(distortion )、是3D字体还是平面字体(raised)、是否是艺术风格还是传统风格(wordart )、手写体还是打印体(handwritten)。
ShopSign(中英文)
- 由河南大学等提出了大规模中英文自然场景文本数据集,其包含25362张街景中文招牌图像,196010条文本行。ShopSign中的图像是在不同的场景(市中心到偏远地区)中使用50多种不同的手机拍摄。相比于CTW,其包含了4000张夜间图像,同时也包含了2516对图像来对一个sign获取水平和多视角的图片。其包含多种分辨率,包括3024×4032,1920×1080,2180×720等。CMT主要包含了几个主要发达城市,而ShopSign包含的地理范围广(北京、上海、厦门、新疆、蒙古、牡丹江、葫芦岛和河南省的一些城市和小城镇),包括许多街景车辆无法到达的郊区或小城镇。CMT使用了固定的拍摄角度,而ShopSign使用了多种角度进行拍摄。
- 注释包括了每个文本行的四边形边界框的坐标(顺序:左上、右上、右下、左下)以及相对应的文本行的相应文本。
- 重点:CMT包含了Street Views (roads, buildings, trees,etc.),而ShopSign仅仅处理广告牌上的文本。
注意:未公开数据集,联系邮箱获取
相关论文及资料:
arxiv: ShopSign: a Diverse Scene Text Dataset of Chinese Shop Signs in Street Views.
TITS-ShopSign: Street View Text Recognition With Deep Learning for Urban Scene Understanding in Intelligent
Transportation Systems.
Github: sample images and detailed descriptions.
Google Drive: 1265 sample.
Baseline-scene text detection
TextBoxes、CTPN是水平文本检测的代表方法。
TextBoxes++、EAST是针对多方向文本检测的解决方案
CTPN
arxiv: Detecting text in natural image with connectionist text proposal network..
TextBoxes++
arxiv: Textboxes++: A single-shot oriented scene text detector.
EAST
arxiv: EAST: an efficient and accurate scene text detector.
Conceptual Text Region Network: Cognition-Inspired Accurate Scene Text Detection
arxiv: Conceptual Text Region Network: Cognition-Inspired Accurate Scene Text Detection.
Baseline-scene text recognition
CRNN
Sliding CNN
arxiv: Scene text recognition with sliding convolutional character models.
Baseline-scene text detection and recognition
Mask Textspotter
arxiv: Mask textspotter: An end-to-end trainable neural network for spotting text with arbitrary shapes. .
非受控场景的文字检测