史上最全端到端场景文本检测识别资源合集(14篇重要论文 + 5个开源代码 + 49个实验结果 + 222个统计信息)...

本文总结了2012年以来在端到端场景文本检测与识别领域的14篇代表性论文以及6个常用数据集相关的资源,包含了5份论文开源代码, 49个实验结果以及超过200条统计信息。Github资源链接见文末。

一、前言

许多自然场景中包含着丰富的文本信息,对于理解自然场景图像有着十分重要的作用。随着互联网和移动互联网技术的飞速发展,许多新型的应用场景都需要利用自然场景中的丰富的文本信息,例如车牌检测与识别和自动驾驶等。场景文本的分析与处理越来越成为计算机视觉领域的研究热点之一。

OCR(Optical Character Recognition) , 光学字符识别,是指对输入的拍照或扫描图像进行分析处理,检测并识别出该图像当中的文本信息。而自然场景中的文本,不同于传统的扫描图像,因其文字展现形式丰富,背景复杂,分辨率和亮度不一,容易受到环境噪声等因素的影响,使得对其的分析与处理难度远高于传统的扫描文档图像。端到端场景文本检测与识别(End-to-end Scene Text Detection and Recognition),是将场景文本检测和场景文本识别结合成一个整体的系统,能够同时得到文本检测与识别的结果,这也是场景文本分析与处理的最终目标。近年来,随着深度学习的发展,端到端场景文本检测与识别技术取得了突破性的进展。 

二、数据集对比

本文整理了六个常用于端到端场景文本检测与识别的数据集,分别为:SVT、ICDAR 2003、ICDAR 2011、ICDAR 2013、ICDAR2015、Total-Text。

详细对比内容,包括语种,图片以及文本数量(训练/测试),标注类型以及下载链接等信息请详见资源链接。

640?wx_fmt=png

三、端到端场景文本检测与识别方法总结

本小节整理并对比了端到端场景文本检测与识别14篇重要论文,对比内容包括代码是否开源、方法分类、出处、时间等。

640?wx_fmt=png

四、端到端场景文本检测与识别结果汇总

本小节整理了端到端场景文本检测与识别领域14篇重要论文的在不同类型数据集上的评估结果。详细内容请见资源链接。

640?wx_fmt=png

五、小结

本文总结了2012年以来在端到端场景文本检测与识别领域的14篇重要论文、6个常用数据集、5份论文开源代码、 49个实验结果以及超过200条统计信息。此外,我们还总结了部分企业提供的OCR服务软件。详细内容见下列github链接。

Github资源链接

  • Scene Text Detection:https://github.com/HCIILAB/Scene-Text-Detection

  • Scene Text Recognition: https://github.com/HCIILAB/Scene-Text-Recognition

  • End-to-end Scene Text Detection and Recognition: https://github.com/HCIILAB/Scene-Text-End2end


作者:刘崇宇

编排:高学 

审校:殷飞 

发布:金连文

作者/资源整理者介绍:

  刘崇宇:华南理工大学电子与信息学院在读硕士生。

  罗灿杰:华南理工大学电子与信息学院在读博士生。

640?wx_fmt=png

免责声明:本文仅代表作者观点,不代表本公众号立场。

640?wx_fmt=gif

推荐阅读:

开学季,当当50元购书优惠券免费送!!!

2019最新 | 数据增强文献综述

一行 Python 代码能实现什么丧心病狂的功能?

点个在看支持一下吧640?wx_fmt=png640?wx_fmt=png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值