字符识别数据集,文档分析相关的资源

原创 2013年12月04日 21:42:23

原创

一.一些作者的研究主页

Scottleishman:多伦多大学计算机系机器学习小组,主页可以下载到作者的发表的论文,硕士学位论文等。

http://www.cs.toronto.edu/~scottl/

http://www.cs.toronto.edu/~scottl/research/icdar2005.pdf

http://www.cs.toronto.edu/~scottl/research/msc_thesis.pdf

Teode Campos:英国谢菲尔德大学,字符识别只是其研究很小的一个方面。

http://personal.ee.surrey.ac.uk/Personal/T.Decampos/                

Jinyu Zuo:美国西弗吉尼亚大学博士,研究的是关于表格文档结构分析,也是一小部分

http://www.jinyuzuo.net/home

Jin Chen:在读博士,里海大学,研究的是手写字符识别,噪声文档分析

http://www.cse.lehigh.edu/~jic207/

有关OCR,文档方面的研究还算比较成熟,现在也不算是一个热点(一家之言),作者主页比较难找,相关代码也少,一般是看论文,搜索作者的名字,用google,一般第一个是作者的主页,上面有研究的文档,有的时候还有代码。

二.相关的数据集

1. 场景,印刷字符http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/

2. 文档分析与识别国际大会(ICDAR)第十一届的数据集(在中国北京召开的)里面有印刷文档,在线手写,离线手写,总之数据很全,介绍的很全。另外每一届的ICDAR也是有相关的数据集。

http://www.iapr-tc11.org/mediawiki/index.php/Datasets_List

http://algoval.essex.ac.uk/icdar/Datasets.html

http://algoval.essex.ac.uk:8080/icdar2005/index.jsp?page=ocr.html

3. 机器学习的数据集,里面也有不少关于文档的数据集。http://archive.ics.uci.edu/ml/

4.计算机视觉的数据集,也有一些字符文档的http://riemenschneider.hayko.at/vision/dataset/

5. 手写数字的数据集,年代比较久了。http://yann.lecun.com/exdb/mnist/

6.北大方正关于表格识别的数据集。http://www.icst.pku.edu.cn/cpdp/data/marmot_data.htm

三.相关的源程序

1.Github上面的开源项目也是第一个作者编写的(matlab)

https://github.com/scttl/marks_based_ocr

其他方面的C语言,android,IOS平台等等。

https://github.com/search?q=ocr&nwo=scttl%2Fmarks_based_ocr&search_target=global&ref=cmdform

2.这篇博客上也有,matlab语言的偏基础,可能需要翻墙

http://basic-eng.blogspot.com/search/label/matlab

3. mathworks,fileexchange上的代码,需要注册账号。

http://www.mathworks.com/matlabcentral/fileexchange/index?utf8=%E2%9C%93&term=ocr

4.开源的OCR资源,包括一些软件,库等http://www.ocrgrid.org/ocrdev.html

5. OCR开发包开源软件。http://www.oschina.net/project/tag/262/


OCR开源代码以及OCR公开训练测试数据集汇总

n 1 OCR开源代码网址汇总     1.1 OCRE(OCR Easy), http://lem.eui.upm.es/ocre.html     1.2 Clara OCR,http://d...
  • shazi_1982
  • shazi_1982
  • 2015年05月25日 22:54
  • 1945

深度学习-OCR-数据库

google门牌号识别系统所用数据库--ufldl.stanford.edu/hoursenumbers/ 网上有人用caffe训练的数字及字母数据集(多种字体)-- https://github...
  • u012968002
  • u012968002
  • 2016年05月10日 09:17
  • 2426

基于Faster-rcnn及FCN的中文OCR文本定位

光学字符识别(Optical Character Recognition, OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。一般分为两个步骤:文字定位,即找到文字在图片中的...
  • wqzghost
  • wqzghost
  • 2016年11月21日 10:22
  • 5999

英文字体ocr识别数据集合

  • 2015年04月20日 13:42
  • 696KB
  • 下载

letter-recognition字符识别数据库

  • 2014年05月13日 15:38
  • 709KB
  • 下载

手写字母数字识别数据集EnglishHnd

  • 2016年07月19日 17:43
  • 12.97MB
  • 下载

英文字母识别数据集EnglishHand

  • 2017年09月26日 20:37
  • 12.97MB
  • 下载

场景文本识别-常用数据集

场景文本识别-常用数据集下载
  • kekong0713
  • kekong0713
  • 2016年09月06日 22:14
  • 1663

自然图像里的文本检测 数据库 网址收集

http://openresearch.baidu.com/activitybulletin/618.jhtml 一段文字识别代码 http://prir.ustb.edu.cn/TexStar/M...
  • u013845708
  • u013845708
  • 2014年12月22日 20:18
  • 6124

ICDAR2013数据集 下载

  • 2017年08月11日 17:48
  • 50B
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:字符识别数据集,文档分析相关的资源
举报原因:
原因补充:

(最多只允许输入30个字)