解锁 OCR 世界:开源工具包与数据集一网打尽

日常生活中,你是否经常通过微信识图,获取图片中的文字信息?除此之外,还有拍照搜题、拍照翻译、证件信息提取、物流信息识别等等,都归功于 OCR 技术的支持。

随着深度学习技术的不断发展,智能 OCR 算法与应用日益丰富,对相关数据的需求也随之增加。

本文将介绍几个 OCR 开源工具包和数据集,以帮助开发者们更好地进行文字识别相关的工作。

Surya

Surya 是多语言文档 OCR 工具包,可进行准确的文本行检测,目前支持 90 多种语言,以及即将推出表格和图表检测功能。

  • 开源地址:https://github.com/VikParuchuri/surya

a96fa4414b146e0fe39e24e9b0aaccac.png

EasyOCR

EasyOCR 是一个用 Python 编写的 OCR 库,用于识别图像中的文字并输出为文本,支持 80 多种语言和常用书写文字。

  • 开源地址:https://github.com/JaidedAI/EasyOCR

17f8538425c4bbc56d640e88a324a054.png

MMOCR

MMOCR 是基于 PyTorch 和 mmdetection 的开源工具箱,专注于文本检测,文本识别以及相应的下游任务,如关键信息提取。

  • 开源地址:https://github.com/open-mmlab/mmocr

182785cddd0d70d7af22812754a8e441.png
image

PaddleOCR

PaddleOCR 是基于飞桨的 OCR 工具库,包含总模型仅 8.6M 的超轻量级中文 OCR,单模型支持中英文数字组合识别、竖排文本识别、长文本识别。同时支持多种文本检测、文本识别的训练算法。

  • 开源地址:https://github.com/PaddlePaddle/PaddleOCR

587e4acfe391624b8900a85acbd12ef9.png

CnOCR

CnOCR 是 Python 3 下的文字识别 OCR 工具包,能够识别简体中文、繁体中文(部分模型)、英文和数字等常见字符,并支持竖排文字的识别。该工具包内置了 20 多个预训练模型,可满足各种不同的应用需求,用户安装后即可立即投入使用。

  • 开源地址:https://github.com/breezedeus/CnOCR

c1dcc822ae68b1b0d149e04a20028b99.png

COCO-Text V2.0

COCO-Text 数据集包含 63686 幅图像,239506 个文本实例。包括手写版和打印版,清晰版和非清晰版,英语版和非英语版。

  • 下载地址:https://bgshih.github.io/cocotext/

09f050d5d33d4276e1b2762e4b7acb2c.jpeg

307523eafb78fe84d1afc3823fe9741f.jpeg

SynthText in the Wild dataset

该数据集是一个合成数据集,包含 800 万幅图像,80 万个合成词实例。每个文本实例都使用其文本字符串、字级和字符级边界框进行标注。

  • 下载地址:https://www.robots.ox.ac.uk/~vgg/data/scenetext/

ecc187f49df7e508cf1bf31fa1db1419.png

Uber Text dataset

Uber Text 数据集包含从车载传感器采集的街道级图像和由图像分析师团队标注的 Ground Truth。

特点如下:

  1. 街道图像及其文本区域多边形和相应文字说明

  2. 包含企业名称、街道名称和街道编号文本等 9 个类别

  3. 包含超 11 万幅图像

  4. 每幅图像平均有 4.84 个文本实例

  • 下载地址:https://s3-us-west-2.amazonaws.com/uber-common-public/ubertext/index.html

156c31455b038839558ecf60e0a804f8.png
image

Chinese Text Dataset in the Wild(CTW)

CTW 是由清华大学与腾讯联合推出的一个大型中文自然文本数据集,包含 32285 幅图像,1018402 个中文字符,3850 个字符类别和 6 种属性。

  • 下载地址:https://ctwdataset.github.io/

03146d55515e6870a4016ca3edf91e45.png

MSRA Text Detection 500 Database(MSRA-TD500)

MSRA-TD500 数据集包含 500 幅自然图像,使用袖珍相机从室内(办公室和商场)和室外(街道)场景进行拍摄。室内图像主要是标志牌、门牌和警示牌,室外图像主要是复杂背景下的引导牌和广告牌。

  • 下载地址:http://www.iapr-tc11.org/mediawiki/index.php/MSRA_Text_Detection_500_Database_%28MSRA-TD500%29

e45636d069e383b3b85d6a6cf3595f06.png

趋动云拥有高性能的计算资源,能够快速处理海量数据,为文本识别算法提供强大的支持。此外,趋动云还拥有上千条数据集,包括文本相关的DocRED等。这些数据集可供开发人员一键使用,助力开发人员快速实现文本识别算法的开发和测试。

7ca9c5998595567cbe66dfceef75d2e2.png

趋动云

连接算力・连接人

注册即可获得 168 元体验金!

2f8334c27a44d26f7cffdf46019e6b29.png

更多福利,扫码添加小助手 邀你入群~

注册+关注额外赠送 10 元算力金

0cb4a1330eb62b0ec2c475589300bb23.png

请注册后联系小助手,立即领取

▼HOT

趋动云火热注册中!点击“阅读原文”即可尝鲜~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值