本文主要讨论如何做到深入了解OCR,怎么看论文是否是水论文。OCR的识别现在发展到什么样的状态。主流方法有哪些。回答这几个问题,我们首先需要了解OCR领域的数据集,每个数据集的规模多大,如何收集,包含哪些文字,如何标注的,识别难易程度。
本文的主要思路是
- 介绍OCR领域论文中常用的数据集,以及对应的特性,指标代表一个什么含义。如何测试。
- 通过了解数据集的方式,了解OCR领域的一些问题、发展方向。
- 每个数据集要么需要注册,要么格式不统一,解析麻烦,因此这里提供一份已经做好的格式,供下载;为读论文,写论文,开发算法的同学提供便利
一 、OCR Regular Latin Datasets
1.1. IIIT5k-Words(IIIT5k)
-
简介,5K张裁剪好的文字图片,如上图。2K张训练集,3K张测试集。测试集中包含了街景,网络图片等。仅标注62个字符,52个字母以及10个数字。
-
Every image is associated with a 50-word lexicon and a 1,000-word lexicon. Specifically, the lexicon consists of a ground-truth word and some randomly picked words.
-
我这边整理了一份可用的,GT