史上最全端到端场景文本检测识别资源合集（14篇重要论文 + 5个开源代码 + 49个实验结果 + 222个统计信息）...

最新推荐文章于 2022-12-09 10:41:25 发布

weixin_38754361

最新推荐文章于 2022-12-09 10:41:25 发布

阅读量703

点赞数 1

本文总结了2012年以来在端到端场景文本检测与识别领域的14篇代表性论文以及6个常用数据集相关的资源，包含了5份论文开源代码， 49个实验结果以及超过200条统计信息。Github资源链接见文末。

一、前言

许多自然场景中包含着丰富的文本信息，对于理解自然场景图像有着十分重要的作用。随着互联网和移动互联网技术的飞速发展，许多新型的应用场景都需要利用自然场景中的丰富的文本信息，例如车牌检测与识别和自动驾驶等。场景文本的分析与处理越来越成为计算机视觉领域的研究热点之一。

OCR（Optical Character Recognition) , 光学字符识别，是指对输入的拍照或扫描图像进行分析处理，检测并识别出该图像当中的文本信息。而自然场景中的文本，不同于传统的扫描图像，因其文字展现形式丰富，背景复杂，分辨率和亮度不一，容易受到环境噪声等因素的影响，使得对其的分析与处理难度远高于传统的扫描文档图像。端到端场景文本检测与识别（End-to-end Scene Text Detection and Recognition），是将场景文本检测和场景文本识别结合成一个整体的系统，能够同时得到文本检测与识别的结果，这也是场景文本分析与处理的最终目标。近年来，随着深度学习的发展，端到端场景文本检测与识别技术取得了突破性的进展。

二、数据集对比

本文整理了六个常用于端到端场景文本检测与识别的数据集，分别为：SVT、ICDAR 2003、ICDAR 2011、ICDAR 2013、ICDAR2015、Total-Text。

详细对比内容，包括语种，图片以及文本数量（训练/测试），标注类型以及下载链接等信息请详见资源链接。

640?wx_fmt=png

三、端到端场景文本检测与识别方法总结

本小节整理并对比了端到端场景文本检测与识别14篇重要论文，对比内容包括代码是否开源、方法分类、出处、时间等。

640?wx_fmt=png

四、端到端场景文本检测与识别结果汇总

本小节整理了端到端场景文本检测与识别领域14篇重要论文的在不同类型数据集上的评估结果。详细内容请见资源链接。

640?wx_fmt=png

五、小结

本文总结了2012年以来在端到端场景文本检测与识别领域的14篇重要论文、6个常用数据集、5份论文开源代码、 49个实验结果以及超过200条统计信息。此外，我们还总结了部分企业提供的OCR服务软件。详细内容见下列github链接。

Github资源链接

Scene Text Detection：https://github.com/HCIILAB/Scene-Text-Detection
Scene Text Recognition: https://github.com/HCIILAB/Scene-Text-Recognition
End-to-end Scene Text Detection and Recognition: https://github.com/HCIILAB/Scene-Text-End2end

作者：刘崇宇

编排：高学

审校：殷飞

发布：金连文

作者/资源整理者介绍：

刘崇宇：华南理工大学电子与信息学院在读硕士生。

罗灿杰：华南理工大学电子与信息学院在读博士生。

640?wx_fmt=png

免责声明：本文仅代表作者观点，不代表本公众号立场。

640?wx_fmt=gif

推荐阅读：

开学季，当当50元购书优惠券免费送！！！

2019最新 | 数据增强文献综述

一行 Python 代码能实现什么丧心病狂的功能？

点个在看支持一下吧 640?wx_fmt=png

weixin_38754361

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。