ocr技术
文章平均质量分 78
周子青
这个作者很懒,什么都没留下…
展开
-
【OCR技术系列之一】字符识别技术总览
最近入坑研究OCR,看了比较多关于OCR的资料,对OCR的前世今生也有了一个比较清晰的了解。所以想写一篇关于OCR技术的综述,对OCR相关的知识点都好好总结一遍,以加深个人理解。什么是OCR?OCR英文全称是Optical Character Recognition,中文叫做光学字符识别。它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。文...原创 2018-06-05 09:54:39 · 3000 阅读 · 0 评论 -
【OCR技术系列之四】基于深度学习的文字识别(3755个汉字)
上一篇提到文字数据集的合成,现在我们手头上已经得到了3755个汉字(一级字库)的印刷体图像数据集,我们可以利用它们进行接下来的3755个汉字的识别系统的搭建。用深度学习做文字识别,用的网络当然是CNN,那具体使用哪个经典网络?VGG?RESNET?还是其他?我想了下,越深的网络训练得到的模型应该会更好,但是想到训练的难度以及以后线上部署时预测的速度,我觉得首先建立一个比较浅的网络(基于LeNet的...原创 2018-06-05 10:10:22 · 5428 阅读 · 5 评论 -
【OCR技术系列之三】大批量生成文字训练集
放假了,终于可以继续可以静下心写一写OCR方面的东西。上次谈到文字的切割,今天打算总结一下我们怎么得到用于训练的文字数据集。如果是想训练一个手写体识别的模型,用一些前人收集好的手写文字集就好了,比如中科院的这些数据集。但是如果我们只是想要训练一个专门用于识别印刷汉字的模型,那么我们就需要各种印刷字体的训练集,那怎么获取呢?借助强大的图像库,自己生成就行了!先捋一捋思路,生成文字集需要什么步骤:确定...原创 2018-06-05 10:09:39 · 2620 阅读 · 3 评论 -
【OCR技术系列之二】文字定位与切割
要做文字识别,第一步要考虑的就是怎么将每一个字符从图片中切割下来,然后才可以送入我们设计好的模型进行字符识别。现在就以下面这张图片为例,说一说最一般的字符切割的步骤是哪些。当然,我们实际上要识别的图片很可能没上面那张图片如此整洁,很可能是倾斜的,或者是带噪声的,又或者这张图片是用手机拍下来下来的,变得歪歪扭扭,所以需要进行图片预处理,把文本位置矫正,把噪声去除,然后才可以进行进一步的字符分割和文字...原创 2018-06-05 09:56:24 · 1723 阅读 · 0 评论 -
图像标注工具labelImg安装方法win下Python
1、下载源码https://github.com/tzutalin/labelImg, download之后,解压。2、安装Python3、安装PyQt5进入anaconda后,输入: pip install PyQt5 这里有个技巧,执行pip命令之后,它会自动寻找最合适(匹配你的系统、Python版本)的whl文件,文件名就是Downloading 之后的名字,即 PyQt5-5.8.2-5....原创 2018-06-21 17:07:15 · 399 阅读 · 0 评论 -
固定定位身份证信息tessract-ocr识别
# coding:utf8import cv2import pytesseractimg=cv2.imread('./img/img-0.png')image=cv2.resize(img,(748,460),interpolation=cv2.INTER_CUBIC)# cv2.imshow('image',image)# cv2.waitKey()# name=image[6...原创 2018-06-14 14:47:20 · 666 阅读 · 0 评论 -
利用opencv-python和tessract-ocr实现简单是身份证矫正和信息识别(未封装面向对象)个人记录未整合
#! /usr/bin/env python# -*- coding: utf-8 -*-import cv2import numpy as npfrom imutils.perspective import four_point_transformimg=cv2.imread('./img/img1.png')# cv2.imshow('img',img)# cv2.waitK...原创 2018-06-08 15:41:22 · 5282 阅读 · 2 评论 -
二代身份证文字照片位置定位mask
外框(0,460)(0,748)姓名(60,100)(25,100)性别(120,157)(25,100)民族(120,150)(195,270)出生(180,212)(25,100)年(175,210)(195,230)月(175,210)(270,300)日(175,210)(340,370)住址(240,275)(25,100)公民身份号码(390,425)(35,210)头像(60,345...原创 2018-06-08 17:10:48 · 2356 阅读 · 0 评论