原创
一.一些作者的研究主页
Scottleishman:多伦多大学计算机系机器学习小组,主页可以下载到作者的发表的论文,硕士学位论文等。
http://www.cs.toronto.edu/~scottl/
http://www.cs.toronto.edu/~scottl/research/icdar2005.pdf
http://www.cs.toronto.edu/~scottl/research/msc_thesis.pdf
Teode Campos:英国谢菲尔德大学,字符识别只是其研究很小的一个方面。
http://personal.ee.surrey.ac.uk/Personal/T.Decampos/
Jinyu Zuo:美国西弗吉尼亚大学博士,研究的是关于表格文档结构分析,也是一小部分
Jin Chen:在读博士,里海大学,研究的是手写字符识别,噪声文档分析。
http://www.cse.lehigh.edu/~jic207/
有关OCR,文档方面的研究还算比较成熟,现在也不算是一个热点(一家之言),作者主页比较难找,相关代码也少,一般是看论文,搜索作者的名字,用google,一般第一个是作者的主页,上面有研究的文档,有的时候还有代码。
二.相关的数据集
1. 场景,印刷字符http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/
2. 文档分析与识别国际大会(ICDAR)第十一届的数据集(在中国北京召开的)里面有印刷文档,在线手写,离线手写,总之数据很全,介绍的很全。另外每一届的ICDAR也是有相关的数据集。
http://www.iapr-tc11.org/mediawiki/index.php/Datasets_List
http://algoval.essex.ac.uk/icdar/Datasets.html
http://algoval.essex.ac.uk:8080/icdar2005/index.jsp?page=ocr.html
3. 机器学习的数据集,里面也有不少关于文档的数据集。http://archive.ics.uci.edu/ml/
4.计算机视觉的数据集,也有一些字符文档的http://riemenschneider.hayko.at/vision/dataset/
5. 手写数字的数据集,年代比较久了。http://yann.lecun.com/exdb/mnist/
6.北大方正关于表格识别的数据集。http://www.icst.pku.edu.cn/cpdp/data/marmot_data.htm
三.相关的源程序
1.Github上面的开源项目也是第一个作者编写的(matlab):
https://github.com/scttl/marks_based_ocr
其他方面的C语言,android,IOS平台等等。
https://github.com/search?q=ocr&nwo=scttl%2Fmarks_based_ocr&search_target=global&ref=cmdform
2.这篇博客上也有,matlab语言的偏基础,可能需要翻墙
http://basic-eng.blogspot.com/search/label/matlab
3. mathworks,fileexchange上的代码,需要注册账号。
http://www.mathworks.com/matlabcentral/fileexchange/index?utf8=%E2%9C%93&term=ocr
4.开源的OCR资源,包括一些软件,库等http://www.ocrgrid.org/ocrdev.html
5. OCR开发包开源软件。http://www.oschina.net/project/tag/262/