中文街景店铺检测和识别数据集


国内外在中文场景图像文字识别的研究极少。究其原因,一是汉字类别庞大,在照片中进行文字识别的难度较大;二是中文场景图像数据集的缺乏。

一个场景文本识别系统通常由两个主要部分组成:场景文本检测器和识别器。前者以边界框的形式对图像中的字符/文本进行检测,而后者从边界框中裁剪的图像中识别文本(字符序列)。但也有一些尝试旨在以“端到端”的方式直接输出文本,即在单个神经网络(过程)中无缝集成场景文本检测和识别。

对于场景文本识别系统来说,端到端并不是强制性的,因为在某些情况下,场景文本检测器预测的边界框中检测到的图像块可能太模糊或太小而无法识别。然而,“端到端”方法的优点可能是内部反馈以及检测和识别模块之间的无缝交互。

街景数据集

在这里插入图片描述

SVT、ICDR2013、ICDAR2015、COCO-Text、SynthText很少有包含中文文字/字符的图片。
中文数据集的主要有CTW、RCTW、ICPR 2018 MYWI(in 2017&2018)。RCTW (a.k.a CTW-12k)是ICDAR-2017 competition dataset for scene text detection and recognition,其包含12263张标注数据集。ICPR 2018 MYWI主要包含了网络图像的文本检测,不符合街景要求。

ICDAR-ReCTS

美团本次公开的数据,由遍布全国的市场人员所拍摄的众多门脸招牌图片组成,共25000张。每张图片是由完全独立的不同个人,采用不同设备,在不同地点,不同时间和不同环境下所拍摄的不同商家。该数据集以中文文字为主,也包含一定数量的英文和数字,英文和数字的占比介于 10% 和 30% 之间。标注内容比较完备,每张图片均标注了单个字符的位置和文本,以及各字符串的位置和文本。是难得的用于研发和评估中文识别技术的数据集。其中,20000张图片用于训练,2000张用于验证,3000张用于测试。
在这里插入图片描述
在这里插入图片描述

中文街景数据集CTW

  1. 主要包含32285张图片,共计1018402个汉字,3850个汉字类别。主要来自清华-腾讯100K数据集和腾讯街景数据集。图片分辨率为2048*2048。所有街景图像都是以固定距离(10-20米)拍摄,因此如果两个连续图像有70%的重合则被移除,故不包含多视角数据。其中训练集:检测测试集:识别测试集=8:1:1。该数据集可以用于自然场景文字的检测和识别2个任务,独立于OCR技术,相当于photo OCR。
    链接: arxiv-Chinese Text in the Wild.
    链接: CTW Dataset.
  2. 注释包括:(1) 每个汉字的检测框(2) 一行汉字的检测框(3) 是否遮挡(occlusion)、是否有复杂背景(complex background )、是否扭曲(distortion )、是3D字体还是平面字体(raised)、是否是艺术风格还是传统风格(wordart )、手写体还是打印体(handwritten)。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

ShopSign(中英文)

  1. 由河南大学等提出了大规模中英文自然场景文本数据集,其包含25362张街景中文招牌图像,196010条文本行。ShopSign中的图像是在不同的场景(市中心到偏远地区)中使用50多种不同的手机拍摄。相比于CTW,其包含了4000张夜间图像,同时也包含了2516对图像来对一个sign获取水平和多视角的图片。其包含多种分辨率,包括3024×4032,1920×1080,2180×720等。CMT主要包含了几个主要发达城市,而ShopSign包含的地理范围广(北京、上海、厦门、新疆、蒙古、牡丹江、葫芦岛和河南省的一些城市和小城镇),包括许多街景车辆无法到达的郊区或小城镇。CMT使用了固定的拍摄角度,而ShopSign使用了多种角度进行拍摄。
  2. 注释包括了每个文本行的四边形边界框的坐标(顺序:左上、右上、右下、左下)以及相对应的文本行的相应文本。
  3. 重点:CMT包含了Street Views (roads, buildings, trees,etc.),而ShopSign仅仅处理广告牌上的文本。

注意:未公开数据集,联系邮箱获取
在这里插入图片描述

相关论文及资料
arxiv: ShopSign: a Diverse Scene Text Dataset of Chinese Shop Signs in Street Views.
TITS-ShopSign: Street View Text Recognition With Deep Learning for Urban Scene Understanding in Intelligent
Transportation Systems
.
Github: sample images and detailed descriptions.
Google Drive: 1265 sample.

在这里插入图片描述

Baseline-scene text detection

TextBoxes、CTPN是水平文本检测的代表方法。
TextBoxes++、EAST是针对多方向文本检测的解决方案

CTPN

在这里插入图片描述

arxiv: Detecting text in natural image with connectionist text proposal network..

TextBoxes++

在这里插入图片描述

arxiv: Textboxes++: A single-shot oriented scene text detector.

EAST

在这里插入图片描述

arxiv: EAST: an efficient and accurate scene text detector.

Conceptual Text Region Network: Cognition-Inspired Accurate Scene Text Detection

在这里插入图片描述
arxiv: Conceptual Text Region Network: Cognition-Inspired Accurate Scene Text Detection.

Baseline-scene text recognition

CRNN

在这里插入图片描述

arxiv: An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition.

Sliding CNN

在这里插入图片描述

arxiv: Scene text recognition with sliding convolutional character models.

Baseline-scene text detection and recognition

Mask Textspotter

在这里插入图片描述

arxiv: Mask textspotter: An end-to-end trainable neural network for spotting text with arbitrary shapes. .

非受控场景的文字检测

在这里插入图片描述
在这里插入图片描述

  • 1
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
智慧校园整体解决方案是响应国家教育信息化政策,结合教育改革和技术创新的产物。该方案以物联网、大数据、人工智能和移动互联技术为基础,旨在打造一个安全、高效、互动且环保的教育环境。方案强调从数字化校园向智慧校园的转变,通过自动数据采集、智能分析和按需服务,实现校园业务的智能化管理。 方案的总体设计原则包括应用至上、分层设计和互联互通,确保系统能够满足不同用户角色的需求,并实现数据和资源的整合与共享。框架设计涵盖了校园安全、管理、教学、环境等多个方面,构建了一个全面的校园应用生态系统。这包括智慧安全系统、校园身份识别、智能排课及选课系统、智慧学习系统、精品录播教室方案等,以支持个性化学习和教学评估。 建设内容突出了智慧安全和智慧管理的重要性。智慧安全管理通过分布式录播系统和紧急预案一键启动功能,增强校园安全预警和事件响应能力。智慧管理系统则利用物联网技术,实现人员和设备的智能管理,提高校园运营效率。 智慧教学部分,方案提供了智慧学习系统和精品录播教室方案,支持专业级学习硬件和智能化网络管理,促进个性化学习和教学资源的高效利用。同时,教学质量评估中心和资源应用平台的建设,旨在提升教学评估的科学性和教育资源的共享性。 智慧环境建设则侧重于基于物联网的设备管理,通过智慧教室管理系统实现教室环境的智能控制和能效管理,打造绿色、节能的校园环境。电子班牌和校园信息发布系统的建设,将作为智慧校园的核心和入口,提供教务、一卡通、图书馆等系统的集成信息。 总体而言,智慧校园整体解决方案通过集成先进技术,不仅提升了校园的信息化水平,而且优化了教学和管理流程,为学生、教师和家长提供了更加便捷、个性化的教育体验。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值