记录一下OCR常用的数据集(1)

最新推荐文章于 2025-05-07 14:33:38 发布

lingyued

最新推荐文章于 2025-05-07 14:33:38 发布

阅读量1.2k

点赞数 18

分类专栏：程序员文章标签： ocr 人工智能计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lingyued/article/details/137652403

版权

本文介绍了多个OCR领域的关键数据集，包括ICDAR的2013、2015、2017-MLT、2017-RCTW、2019-MLT、2019-LSVT和ReCTS，以及天池比赛2018、Synth800k、360万中文数据集、CTW、百度中文场景文字识别和MSRA-TD500，涵盖了多种语言和应用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.ICDAR-2013

数据简介：该数据集由462（训练229，测试233）张英文标注的自然场景图片构成，标注形式为两点水平标注，坐标格式为左上角，和右下角：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4XMaKgft-1637634953229)(./images/ic13.png)]

2.ICDAR-2015

数据简介：该数据集由1500张（训练1000，测试500）英文标注的自然场景图片构成，标注形式为四点标注，坐标格式依次为为左上角，右上角，右下角和左下角，如下图所示：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-03Pbllp1-1637634953230)(./images/ic_15.png)]

3.ICDAR2017-MLT

数据简介：该数据集由9000张（训练7200，测试1800）多种混合语言标注的自然场景图片构成，标注形式为四点标注，坐标格式依次为为左上角，右上角，右下角和左下角，如下图所示：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UvjeNATi-1637634953231)(./images/ic17_mlt.png)]

4.ICDAR2017-RCTW

数据简介：ICDAR 2017-RCTW(Reading Chinest Text in the Wild)，由Baoguang Shi等学者提出。RCTW主要是中文，共12263张图像，其中8034作为训练集，4229作为测试集，标注形式为四点标注，

数据集绝大多数是相机拍的自然场景，一些是屏幕截图；包含了大多数场景，如室外街道、室内场景、手机截图等等。

5.天池比赛2018

数据简介：该数据集全部来源于网络图像，主要由合成图像，产品描述，网络广告构成。每一张图像或者包含复杂排版，或者包含密集的小文本或多语言文本，或者包含水印，典型的图片如图1所示：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fDIcFhiH-1637634953231)(./images/tianchi18.png)]

最低0.47元/天解锁文章

博客等级

码龄3年

250
原创

3184
点赞

3407
收藏

2413
粉丝

关注

私信

热门文章

分类专栏

程序员 249篇

展开全部收起

上一篇：: 洛谷_P2437 蜜蜂路线_python写法_高精度加法(1)

下一篇：: 23篇大数据系列（二）scala基础知识全集（史上最全，建议收藏）

最新评论

Selenium实战-模拟登录淘宝并爬取商品信息_使用selenium模拟真实登录行为,并爬取商品评论数据。(1)
v_970920836: 能接管，但是也是会出现滑块验证啊
安装sql server 过程（为了使用SQL Server Management Studio）
普通网友: 干货满满，实用性强，博主的写作风格简洁明了，让人一目了然。文章涵盖了很多实用的知识点。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Flutter-VS-Kotlin-跨平台开发市场的最终由谁统治？
CSDN-Ada助手: 恭喜用户写出了第16篇博客，题目也很有深度！关于Flutter和Kotlin的跨平台开发，确实是一个备受关注的话题。希望用户能继续保持创作的热情和努力，不断探讨和分享关于技术的见解。或许下一步可以深入探讨两者的优劣势，以及在实际项目中的应用经验，这样可以为读者提供更具实践性的参考。期待您更多的精彩内容！
React Native 与嵌入Android原生与Activity页面互相跳转(2)
全栈小5: 你的文章很有深度和广度，不仅表达了你的思考和理解，也激发了读者的思考和感悟【React Native 与嵌入Android原生与Activity页面互相跳转(2)，博主这篇文章，值得一看】
Http 状态码详解(1)
CSDN-Ada助手: 恭喜您撰写了第17篇博客“Http 状态码详解(1)”，对于这一主题的深入探讨让读者们能够更加全面地了解Http状态码的含义与应用。希望您能继续保持创作的热情和耐心，为我们带来更多有价值的内容。或许在下一篇博客中，您可以深入探讨Http状态码的常见错误使用场景及解决方法，这将为读者们提供更为实用的知识。期待您的下一篇作品！

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。