OCR
业余狙击手19
图像算法菜鸟,点滴积累成就硕果累累。
展开
-
文本检测算法五:Pixel-Anchor
Pixel-Anchor论文转载原文(先转载过来,搭个知识点框架,以后用到再深究)文本检测是深度学习中一项非常重要的应用,在前面的文章中已经介绍过了很多文本检测的方法,包括CTPN、SegLink、EAST、PixelLink,这些文本检测方法主要分为两类,一类是基于像素级别的图像语义分割方法(pixel-based),另一类是采用通用目标检测(使用锚点)的方法(anchor-bas...转载 2019-08-03 10:59:31 · 1917 阅读 · 5 评论 -
文本检测算法四:PixelLink
PixelLink论文PixelLink代码转载原文(先转载过来,搭个知识点框架,以后用到再深究)文字检测是AI的一项重要应用,在之前的文章中已经介绍过了几种基于深度学习的文字检测模型:CTPN、SegLink、EAST,这些模型主要依赖于深度学习,可应用于自然场景中进行文字检测,其主要的实现步骤是判断是不是文本,并且给出文本框的位置和角度,如下图:从上图可以看出,CTPN...转载 2019-08-03 10:58:52 · 1311 阅读 · 0 评论 -
文本检测算法三:EAST and AdvancedEAST
EAST论文EAST代码EAST原理讲解【知乎】 传统的文本检测方法和一些基于深度学习的文本检测方法,大多是multi-stage,在训练时需要对多个stage调优,这势必会影响最终的模型效果,而且非常耗时.针对上述存在的问题,EAST提出了端到端的文本检测方法,消除中间多个stage(如候选区域聚合,文本分词,后处理等),直接预测文本行.一、EAST模型简介...转载 2019-07-27 13:34:38 · 5920 阅读 · 10 评论 -
文本检测算法二:SegLink
SegLink代码SegLink论文SegLink主要思想是将文本分解为两个局部可检测的元素,即片段(分割)和链接。片段是对字符或者单词的方框,链接用来连接方框;最后检测是通过连接片段产生。 在自然场景中,例如灯箱广告牌、产品包装盒、商标等,要检测出其中的文字会面临着各种复杂的情况,例如角度倾斜、变形等情况,这时就需要使用基于深度学习的方法进行文字检测。在之前的文章中,...转载 2019-07-27 11:59:14 · 2761 阅读 · 0 评论 -
文本检测算法一:CTPN
文本检测算法一:CTPNCTPN源码解析1-数据预处理split_label.pyCTPN源码解析2-代码整体结构和框架CTPN源码解析3.1-model()函数解析CTPN源码解析3.2-loss()函数解析CTPN源码解析4-损失函数CTPN源码解析5-文本线构造算法构造文本行CTPN训练自己的数据集主要目的是复现CTPN,检验一下它检测文本的能力,看是否能应用...原创 2019-07-20 18:29:57 · 5502 阅读 · 18 评论 -
OCR技术4-基于深度学习的文字识别(3755个汉字)
上一篇提到文字数据集的合成,现在我们手头上已经得到了3755个汉字(一级字库)的印刷体图像数据集,我们可以利用它们进行接下来的3755个汉字的识别系统的搭建。用深度学习做文字识别,用的网络当然是CNN,那具体使用哪个经典网络?VGG?RESNET?还是其他?我想了下,越深的网络训练得到的模型应该会更好,但是想到训练的难度以及以后线上部署时预测的速度,我觉得首先建立一个比较浅的网络(基于LeNet的...转载 2018-10-28 17:54:24 · 1389 阅读 · 0 评论 -
OCR技术3-大批量生成文字训练集
如果是想训练一个手写体识别的模型,用一些前人收集好的手写文字集就好了,比如中科院的这些数据集。但是如果我们只是想要训练一个专门用于识别印刷汉字的模型,那么我们就需要各种印刷字体的训练集,那怎么获取呢?借助强大的图像库,自己生成就行了!先捋一捋思路,生成文字集需要什么步骤:确定你要生成多少字体,生成一个记录着汉字与label的对应表。 确定和收集需要用到的字体文件。 生成字体图像,存储在...转载 2018-10-28 17:45:16 · 1438 阅读 · 0 评论 -
OCR技术2-文字定位与切割
要做文字识别,第一步要考虑的就是怎么将每一个字符从图片中切割下来,然后才可以送入我们设计好的模型进行字符识别。现在就以下面这张图片为例,说一说最一般的字符切割的步骤是哪些。当然,我们实际上要识别的图片很可能没上面那张图片如此整洁,很可能是倾斜的,或者是带噪声的,又或者这张图片是用手机拍下来下来的,变得歪歪扭扭,所以需要进行图片预处理,把文本位置矫正,把噪声去除,然后才可以进行进一步的字符分...转载 2018-10-28 17:03:49 · 1226 阅读 · 0 评论 -
OCR技术1-字符识别技术总览
原文地址http://www.cnblogs.com/skyfsm/p/7923015.html 方便以后查看转载 2018-05-28 10:46:39 · 3790 阅读 · 0 评论 -
OCR识别
文字识别是计算机视觉研究领域的分支之一,归属于模式识别和人工智能,是计算机科学的重要组成部分。本文将以上图为主要线索,简要阐述在文字识别领域中的各个组成部分。一 ,文字识别简介计算机文字识别,俗称光学字符识别,英文全称是Optical Character Recognition(简称OCR),它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人...转载 2018-11-11 10:31:49 · 3836 阅读 · 0 评论 -
MSER+NMS 文本检测(身份证+发票+火车票)
此篇文章不细说MSER和NMS原理,以实战为主。 MSER是最大稳定极值区域:是对一幅灰度图像(灰度值为0~255)取阈值进行二值化处理,阈值从0到255依次递增。阈值的递增类似于分水岭算法中的水面的上升,随着水面的上升,有一些较矮的丘陵会被淹没,如果从天空往下看,则大地分为陆地和水域两个部分,这类似于二值图像。在得到的所有二值图像中,图像中的某些连通区域变化很小,甚至没有...原创 2019-06-25 17:58:21 · 2676 阅读 · 0 评论