OCR
iamdll
这个作者很懒,什么都没留下…
展开
-
浅谈OCR之Tesseract
光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。OCR技术非常专业,一般多是印刷、打印行业的从业人员使用,可以快速的将纸质资料转换为电子资料。关于中文OCR,目前国内水平较高的有清华文通、汉王、尚书,其产品各有千秋,价格不菲。国外OCR发展较早,像一些大公司,如IBM、微软、HP等,即使转载 2015-08-31 10:28:44 · 12104 阅读 · 0 评论 -
Tessnet2 a .NET 2.0 Open Source OCR assembly using Tesseract engine
Keywords: Open source, OCR, Tesseract, .NET, DOTNET, C#, VB.NET, C++/CLICurrent version : 2.04.0, 02SEP09 (see version history)The big pictureTesseract is a C++ open source OCR engine. Tessnet2转载 2015-08-31 10:32:36 · 2221 阅读 · 0 评论 -
OCR技术浅探:特征提取(1)
研究背景关于光学字符识别(Optical Character Recognition, 下面都简称OCR),是指将图像上的文字转化为计算机可编辑的文字内容,众多的研究人员对相关的技术研究已久,也有不少成熟的OCR技术和产品产生,比如汉王OCR、ABBYY FineReader、Tesseract OCR等. 值得一提的是,ABBYY FineReader不仅正确率高(包括对中文的识别),而且还转载 2018-01-31 13:48:45 · 3611 阅读 · 2 评论 -
OCR技术浅探 : 文字定位和文本切割(2)
文字定位经过前面的特征提取,我们已经较好地提取了图像的文本特征,下面进行文字定位。 主要过程分两步:1、邻近搜索,目的是圈出单行文字;2、文本切割,目的是将单行文本切割为单字。 邻近搜索我们可以对提取的特征图进行连通区域搜索,得到的每个连通区域视为一个汉字。 这对于大多数汉字来说是适用,但是对于一些比较简单的汉字却不适用,比如“小”、“旦”、“八”、“元” 这些字,由于不具有连转载 2018-01-31 13:50:13 · 2929 阅读 · 1 评论 -
OCR技术浅探: 光学识别(3)
经过前面的文字定位和文本切割,我们已经能够找出图像中单个文字的区域,接下来可以建立相应的模型对单字进行识别。 模型选择在模型方面,我们选择了深度学习中的卷积神经网络模型,通过多层卷积神经网络,构建了单字的识别模型。 卷积神经网络是人工神经网络的一种,已成为当前图像识别领域的主流模型。 它通过局部感知野和权值共享方法,降低了网络模型的复杂度,减少了权值的数量,在网络结构上更类似于转载 2018-01-31 13:50:59 · 518 阅读 · 1 评论 -
OCR技术浅探: 语言模型和综合评估(4)
语言模型由于图像质量等原因,性能再好的识别模型,都会有识别错误的可能性,为了减少识别错误率,可以将识别问题跟统计语言模型结合起来,通过动态规划的方法给出最优的识别结果。这是改进OCR识别效果的重要方法之一。 转移概率在我们分析实验结果的过程中,有出现这一案例。由于图像不清晰等可能的原因,导致“电视”一词被识别为“电柳”,仅用图像模型是不能很好地解决这个问题的,因为从图像模型来看,识转载 2018-01-31 13:51:45 · 478 阅读 · 0 评论 -
OCR 常用软件对比
国内主要OCR厂商产品的介绍1、文通(http://www.wintone.com.cn/a/prods/netocr/)北京文通科技有限公司是享誉国内外的OCR(光学字符识别)技术生产商、文档影像技术和应用解决方案提供商。经过多年的创新与发展,文通科技现已成长为国内知名的高新技术企业,在全国十余个城市建立了分支机构,公司产品涉及多个领域。演示地址:http://cloud.win转载 2018-02-01 10:21:41 · 15766 阅读 · 0 评论 -
OCR识别
OCR识别的开源分析OCR软件主要是由下面几个部分组成。 1. 图像输入、预处理: 2. 图像输入:对于不同的图像格式,有着不同的存储格式,不同的压缩方式。预处理:主要包括二值化,噪声去除,倾斜较正等 3. 二值化: 对摄像头拍摄的图片,大多数是彩色图像,彩色图像所含信息量巨大,对于图片的内容,我们可以简单的分为前景与背景,为了让计算机更快的,更好的识...转载 2018-05-04 15:19:30 · 1049 阅读 · 0 评论