OCR
长弓成
这个作者很懒,什么都没留下…
展开
-
手写字符识别入门学习记录(1)
最近由于项目需要,开始学习OCR,查看了一些资料,测试了一些软件的OCR效果,包括ABBYY、汉王、尚书7号等,还是手机端的扫描全能王,这些软件对印刷书写体的扫描图像的OCR识别效果还可以,但是针对手写字符,尤其是中文字符的识别,基本上是全军覆没,顿时头大。后来打电话咨询过汉王,文通公司,都表明没有手写OCR的产品。 看来直接做手写字符识别难度太大,考虑先做验证,判断待测字符是不是原创 2016-04-16 18:50:23 · 820 阅读 · 0 评论 -
如何将Tesseract两个训练文件合并
如何将Tesseract两个训练文件合并在tesseract的训练中,经常会有需求将不同的训练文件合在一起,因为不想重复去修改box,经过群里一位大哥的提醒,有了下面的操作,这里仅仅针对个人自己训练的文件,系统带的训练文件,如eng,chi_sim等文件无法通过此法来合并。1.将两个分别的tif压缩文件通过jTessBoxEditor工具合并,在点击菜单栏中Tools--->Merge T原创 2016-11-03 09:07:07 · 9183 阅读 · 10 评论 -
纯记录,Tesseract-OCR 中文字符训练
参考了很多网上分享的东西,首先感谢他们。由于最近有需求需要使用Tesseract-OCR来识别手写字符,开源的好像就好些了。后面直接进入正题,直接说训练。有部分网上说,要把图片转变成tif格式才来训练,其实jpg也是ok的,测试通过。我操作的步骤如下:1.将准备好的jpg或tif格式的图片(其他格式的尚未测试),通过jTessBoxEditor合并成一个tif格式文件。原创 2016-10-13 21:48:35 · 2366 阅读 · 0 评论 -
jtessboxeditor 中文乱码
jtessboxeditor 中文乱码?将jtessboxeditor的setting里改字体为宋体,regular就可以了。纯属记录。原创 2016-09-30 17:23:11 · 8590 阅读 · 7 评论 -
Unger平滑
Unger平滑的思想是检查3*3窗口内图像结构的细节,而不是简单的统计取值为1的像素数。设3×3窗口如图1(d)所示,其中g为当前点,P0 ~P7为其八个邻接点,Unger平滑准则为: 当 g=1即g为白像素时,如果①P0、P1、P2中至少有一个等于1,同时P4、P5、P6中至少有一个也等于1,或者②P2、P3、P4中至少有一个等于1,同时P5、P7、P0中至少有一个也等于1,则g不变;否则原创 2017-03-31 09:59:39 · 626 阅读 · 0 评论 -
手写字符识别
手写字符图像识别属于OCR中的一种,手写字符识别比书写字符识别的难度要大得多,即使现在采用深度学习,百度和阿里对手写的效果都不是很好,无法达到现实场景实用的水平。 个人认为,主要原因在于数据的收集较为困难,合成的方式不是很适合手写字符的生成。第二,手写字符存在过分和粘连等各种情况,但是现阶段的技术而言,只要数据足够,可以采用lstm+ctc的方式去解决,不单独获取单个字符,而是直接采...原创 2018-05-14 22:56:11 · 3017 阅读 · 0 评论