字符识别数据集,文档分析相关的资源

原创 2013年12月04日 21:42:23

原创

一.一些作者的研究主页

Scottleishman:多伦多大学计算机系机器学习小组,主页可以下载到作者的发表的论文,硕士学位论文等。

http://www.cs.toronto.edu/~scottl/

http://www.cs.toronto.edu/~scottl/research/icdar2005.pdf

http://www.cs.toronto.edu/~scottl/research/msc_thesis.pdf

Teode Campos:英国谢菲尔德大学,字符识别只是其研究很小的一个方面。

http://personal.ee.surrey.ac.uk/Personal/T.Decampos/                

Jinyu Zuo:美国西弗吉尼亚大学博士,研究的是关于表格文档结构分析,也是一小部分

http://www.jinyuzuo.net/home

Jin Chen:在读博士,里海大学,研究的是手写字符识别,噪声文档分析

http://www.cse.lehigh.edu/~jic207/

有关OCR,文档方面的研究还算比较成熟,现在也不算是一个热点(一家之言),作者主页比较难找,相关代码也少,一般是看论文,搜索作者的名字,用google,一般第一个是作者的主页,上面有研究的文档,有的时候还有代码。

二.相关的数据集

1. 场景,印刷字符http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/

2. 文档分析与识别国际大会(ICDAR)第十一届的数据集(在中国北京召开的)里面有印刷文档,在线手写,离线手写,总之数据很全,介绍的很全。另外每一届的ICDAR也是有相关的数据集。

http://www.iapr-tc11.org/mediawiki/index.php/Datasets_List

http://algoval.essex.ac.uk/icdar/Datasets.html

http://algoval.essex.ac.uk:8080/icdar2005/index.jsp?page=ocr.html

3. 机器学习的数据集,里面也有不少关于文档的数据集。http://archive.ics.uci.edu/ml/

4.计算机视觉的数据集,也有一些字符文档的http://riemenschneider.hayko.at/vision/dataset/

5. 手写数字的数据集,年代比较久了。http://yann.lecun.com/exdb/mnist/

6.北大方正关于表格识别的数据集。http://www.icst.pku.edu.cn/cpdp/data/marmot_data.htm

三.相关的源程序

1.Github上面的开源项目也是第一个作者编写的(matlab)

https://github.com/scttl/marks_based_ocr

其他方面的C语言,android,IOS平台等等。

https://github.com/search?q=ocr&nwo=scttl%2Fmarks_based_ocr&search_target=global&ref=cmdform

2.这篇博客上也有,matlab语言的偏基础,可能需要翻墙

http://basic-eng.blogspot.com/search/label/matlab

3. mathworks,fileexchange上的代码,需要注册账号。

http://www.mathworks.com/matlabcentral/fileexchange/index?utf8=%E2%9C%93&term=ocr

4.开源的OCR资源,包括一些软件,库等http://www.ocrgrid.org/ocrdev.html

5. OCR开发包开源软件。http://www.oschina.net/project/tag/262/


相关文章推荐

场景文本识别-常用数据集

场景文本识别-常用数据集下载

Delphi7高级应用开发随书源码

  • 2003年04月30日 00:00
  • 676KB
  • 下载

Delphi7高级应用开发随书源码

  • 2003年04月30日 00:00
  • 676KB
  • 下载

ICDAR Focused Scene Text Detection任务的数据集

主要内容: ICDAR自然场景文本识别有两个难度不同的挑战:难度较小的Focused Scene Text Detection 与难度较大的 Incidental Scene Text Detect...

将 ICDAR 2015 的 Ground Truth 标注在图像数据上

要标注数据,数据集是 ICDAR 2015 比赛中的 Challenge 4: Incidental Scene Text。将 ground truth 的四个坐标标注在原图上,形成一个boxes。...

OCR开源代码以及OCR公开训练测试数据集汇总

n 1 OCR开源代码网址汇总     1.1 OCRE(OCR Easy), http://lem.eui.upm.es/ocre.html     1.2 Clara OCR,http://d...

深度学习-OCR-数据库

google门牌号识别系统所用数据库--ufldl.stanford.edu/hoursenumbers/ 网上有人用caffe训练的数字及字母数据集(多种字体)-- https://github...

主流ocr算法:CNN+BLSTM+CTC架构

ocr算法研究实验性的项目,目前实现了CNN+BLSTM+CTC架构 链接:https://github.com/senlinuc/caffe_ocr 主流ocr算法研究实验性的项...

Delphi7高级应用开发随书源码

  • 2003年04月30日 00:00
  • 676KB
  • 下载

tf28: 手写汉字识别

MNIST手写数字数据集通常做为深度学习的练习数据集,这个数据集恐怕早已经被大家玩坏了。本帖就介绍一个和MNIST类似,同时又适合国人练习的数据集-手写汉字数据集,然后训练一个简单的Deep Conv...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:字符识别数据集,文档分析相关的资源
举报原因:
原因补充:

(最多只允许输入30个字)