Github：深度学习文本检测识别（OCR）精选资源汇总

最新推荐文章于 2024-08-17 19:41:10 发布

我爱计算机视觉

最新推荐文章于 2024-08-17 19:41:10 发布

阅读量1.6k

点赞数

原文链接：https://github.com/hwalsuklee/awesome-deep-text-detection-recognition

版权

点击我爱计算机视觉标星，更快获取CVML新技术

今天跟大家推荐一个Github项目，来自NAVER Clova AI Research的hwalsuklee同学汇总了近几年的基于深度学习进行文本检测、识别的论文、代码、数据集、教程资源，非常值得参考。

https://github.com/hwalsuklee/awesome-deep-text-detection-recognition

该项目不是简单的网址罗列，作者还很用心的将各个算法在公认标准测试集上的精度也一并列出，方便一目了然进行算法比较。

作者首先统计了深度学习OCR方向的文献：

可见这个方向基于深度学习的技术是大势所趋。

按研究方向，在这些论文中，尤以文本检测的数量最多，占比达48.9%，其次是文本识别21.7%，端到端文本识别占比14.1%。

文本检测汇总

在下图表格中，IC3代表该算法在ICDAR2013数据集上的精度，IC15代表该算法在ICDAR2015数据集上的精度，PRJ代表项目主页，CAFFE/TF等代表使用深度学习框架Caffe/TensorFlow等实现的代码。

从中我们可以看出，在ICDAR2013和ICDAR2015数据集上均为来自CVPR 2018的论文《FOTS: Fast Oriented Text Spotting with a Unified Network》取得了最高的精度，分别是0.925和0.8984，这是商汤科技的工作，代码已经开源。

下面是作者用论文发表时间和相应精度制作的散点图，可见该领域算法精度几乎是以45度角直线上升式发展。

文本识别汇总

文本识别的精度是在四个数据集上比较的，如下图。

在四个数据集上，综合表现最好的当属《ASTER: An Attentional Scene Text Recognizer with Flexible Rectification》，这篇文章发表于PAMI2018，来自华中科技大学白翔老师组，代码也开源了。

下面是来自两个数据集的散点图，同样识别技术也几乎以45度角直线式发展。

端到端文本识别

即包含文本检测与识别的全流程的算法。

综合看，来自商汤科技的FOTS和来自华科的Mask TextSpotter都很优秀。

值得注意的是Mask TextSpotter算法也已经开源了（https://github.com/lvpengyuan/masktextspotter.caffe2），此处没有列出。

52CV曾经专门解读过这篇论文：

华科白翔老师团队ECCV2018 OCR论文：Mask TextSpotter

下图为端到端文本识别的精度-发表时间散点图，相比之下，近两年的提升并不是很明显。

文本识别相关的其他方向

包括数据集、文本检索、字体变换、文档版面分析等。

作者还列出了该领域其他人做的资源总结和相关教程资源。

最后附上来自商汤科技的FOTS算法的Demo视频，看看它到底多强大。

再发一下地址：

https://github.com/hwalsuklee/awesome-deep-text-detection-recognition

希望对你有帮助~

加入专业讨论群

关注文本检测识别OCR技术，欢迎加入52CV-OCR专业讨论群，扫码添加CV君拉你入群：

（请务必注明:OCR）

喜欢在QQ交流的童鞋，可以加52CV官方QQ群：702781905。

（不会时时在线，如果没能及时通过验证还请见谅）

长按关注我爱计算机视觉

我爱计算机视觉

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。