ocr
文章平均质量分 68
农夫山泉2号
关于交流可以发邮件:778961303@qq.com
展开
-
【文字识别】-Hamming OCR: A Locality Sensitive Hashing Neural Network for Scene Text Recognition
论文地址: https://arxiv.org/pdf/2009.10874.pdf摘要近年来,基于自注意的场景文本识别方法受到Transformer的启发,取得了优异的性能。但是,我们发现模型的尺寸随着词汇量的增加而迅速增大。其中,softmax分类层和输出嵌入层的参数数量与词汇量大小成正比。它阻碍了轻量级文本识别模型的开发,特别是针对中文和多种语言的文本识别模型。因此,我们提出了一种轻量级的场景文本识别模型——汉明OCR。在该模型中,提出了一种新的汉明分类器来代替softmax回归,并采用local原创 2020-10-29 16:30:09 · 668 阅读 · 0 评论 -
【OCR】——paddleocr.srn安装与测试
1. 环境这里新建了一个conda环境用于测试,官方推荐采用docker# 1. 新建conda环境conda create -n paddleocr python==3.7# 2. 安装paddle1.7.2python3 -m pip install paddlepaddle-gpu==1.7.2.post107 -i https://pypi.tuna.tsinghua.edu.cn/simple# 3. 安装其他依赖cd $projectpip install -r requir原创 2020-08-26 18:09:24 · 883 阅读 · 1 评论 -
【CTC】CTC1D原理/代码/资料+2D CTC LOSS
Reference高大上的动图对数域的计算log_add【Learning Notes】CTC 原理及实现原创 2020-08-25 20:59:41 · 1067 阅读 · 4 评论 -
【OCR】ASTER.pytorch代码阅读
摘要: 这是文字识别OCR领域的一个小里程碑,后面的文章/项目或多或少都有它的影子,这里通过阅读理解代码的方式来解析一下。1. 模型结构图2. 模型结构整个模型很清晰,有以下几个模块组成:STN文字矫正CNN+LSTM特征提取+序列特征学习基于注意力机制的Decoder3. 项目阅读3.1 数据数据采用3 × 64 ×256 的输入归一化到[0,1],减0.5,除0.53.2 STN矫正模块STN的输入将3 × 64 ×256的图像,resize到 3 × 32 × 64原创 2020-05-09 15:31:04 · 1418 阅读 · 6 评论 -
【debug】pytorch CTC_Loss为nan
1. feature中有nan值有次max_pool2d参数设计错误出现了这种情况可以通过 print(feature.max()) 看feature的最大值2. target length有0值现在pytorch中有自带的ctcloss其用法>>> T = 50 # Input sequence length>>> C = 20 ...原创 2020-04-20 23:12:42 · 2680 阅读 · 0 评论 -
【个人开源】论文复现SRN:Towards Accurate Scene Text Recognition with Semantic Reasoning Networks
Towards Accurate Scene Text Recognition with Semantic Reasoning Networkscodehttps://github.com/chenjun2hao/SRN.pytorchUnofficial PyTorch implementation of the paper, which integrates not only globa...原创 2020-05-12 16:34:19 · 4626 阅读 · 12 评论 -
【文字识别】UnrealText: Synthesizing Realistic Scene Text Images from the Unreal World论文阅读
类别: 文本合成来源: CVPR2020,旷视code: https://jyouhou.github.io/UnrealText/摘要: 合成数据是训练场景文本检测和识别模型的关键工具。一方面,在场景文本识别器的训练中,合成词图像已被证明是真实图像的成功替代品。然而,另一方面,场景文本检测器仍然严重依赖于大量手工注释的真实世界图像,这是非常昂贵的。在本文中,我们介绍了一种有效的图像合成方法...原创 2020-03-25 09:07:34 · 1467 阅读 · 0 评论 -
【文字风格】SwapText: Image Based Texts Transfer in Scenes论文阅读
来源:阿里巴巴code:未开源摘要: 在保留原始字体、颜色、大小和背景纹理的同时,在场景图像中交换文本是一项具有挑战性的任务,因为不同的因素之间存在复杂的相互作用。在这项工作中,我们提出了SwapText,一个三个阶段的框架来转移文本的场景图像。首先,提出了一种新的文本交换网络来代替前景图像中的文本标签。其次,学习背景补全网络来重建背景图像。最后,利用所生成的前景图像和背景图像,通过融合网络...原创 2020-03-20 08:59:31 · 1863 阅读 · 0 评论 -
【文字识别】GTC: Guided Training of CTC论文阅读
地址:论文主要思路: 将attention和ctc两种方式进行融合,利用attention对ctc的对齐进行监督和引导,同时,在ctc分支中加入GCN图卷积神经网络提高模型表达能力。简介为了克服CTC的局限性,我们必须两个动机:(1)学习更好的特征表示从更有效的引导和(2)建立label和局部特征的联系。模型模型示意图如下所示:来自强大网络的编码器可以学习更好的对齐和特征表示,其中的...原创 2020-02-05 15:05:09 · 2389 阅读 · 4 评论 -
【文字识别】Scene Text Recognition With Finer Grid Rectification论文阅读
地址: 论文思路: 这篇论文采用矫正再识别的思路进行文字识别,主要有矫正网络和识别网络两大部分,其中矫正网络采用TPS的思路,不过不是和tps一样直接预测2*n个关键点,而是预测中心线,然后加上一个偏置b。识别部分采用GRU实现的attention进行解码,采用了一种新的双向方式替换了aster的方法。具有更好的效果。3. 论文方法3.1 矫正网络矫正网络采用了STN,关键就是如何预测ST...原创 2020-02-03 17:27:04 · 938 阅读 · 0 评论 -
OCR识别—textscanner
下载地址:https://arxiv.org/pdf/1912.12422.pdfcoming soon…原创 2020-01-09 09:56:05 · 2236 阅读 · 0 评论 -
【个人开源】提供预训练结果的ocr标注工具
ocr标注工具提供预训练模型的标注结果采用python-flask框架开发图像标注工具,主要思路是在标注的过程中先调用百度/阿里等免费的api进行标注,并进行人工的验证或目标矩形框的修正,同时支持单张图片多个目标的标注。整理想法很简单,但是实现起来还是很麻烦的。大概用了2周的时间(而且是在开源项目上修改来的)。原特点B/S方式交互支持多人同时标注(可分配不同标注人员的标注范围,或不同人...原创 2020-01-07 14:11:24 · 1734 阅读 · 0 评论 -
Decoupled Attention Network for Text Recognition——论文解读
摘要:文字识别方法在不规则文本识别上,多采用attention的方式,但是采用自回归模型的attention容易存在attention对齐的问题。文章提出了一个 a decoupled attention network (DAN)网络。其主要由:1.特征采集器;2.一个卷积对齐模块,根据编码器的输出进行特征对齐;3.一种解耦的文本解码器,通过联合使用特征图和注意图进行最终预测介绍atte...原创 2019-12-26 20:11:38 · 2880 阅读 · 6 评论 -
【个人开源】2D Attentional Irregular Scene Text Recognizer代码复现
项目地址: https://github.com/chenjun2hao/Bert_OCR.pytorchUnofficial PyTorch implementation of the paper, which transforms the irregular text with 2D layout to character sequence directly via 2D attention...原创 2019-12-03 18:20:32 · 985 阅读 · 5 评论 -
2D Attentional Irregular Scene Text Recognizer代码实现
原理解读参考:2D Attention Network for Scene Text Recognition个人复现的代码:Bert_OCR.pytorch原创 2019-11-25 17:35:06 · 902 阅读 · 1 评论 -
ocr web标注工具
ocr标注工具采用python-flask框架开发图像标注工具,主要思路是在标注的过程中先调用百度/阿里等免费的api进行标注,并进行人工的验证或目标矩形框的修正,同时支持单张图片多个目标的标注。整理想法很简单,但是实现起来还是很麻烦的。大概用了2周的时间(而且是在开源项目上修改来的)。原特点B/S方式交互支持多人同时标注(可分配不同标注人员的标注范围,或不同人员标注不同类别)类别采用...原创 2019-11-10 18:27:59 · 3184 阅读 · 0 评论 -
调用百度的车牌识别api
用于数据标注,一天200次以内是免费的。1. 获取access_token在百度大脑上新建应用,在管理应用中获得API Key和Secret Key,得到access_token修改以下的对应位置,获得access_token.# import requests # # client_id 为官网获取的AK, client_secret 为官网获取的SK# host = 'https...原创 2019-11-10 17:46:56 · 3746 阅读 · 0 评论 -
MASTER: Multi-Aspect Non-local Network for Scene Text Recognition论文解读
文章目录摘要1. 网络结构2. 结果摘要深度学习用于文字识别现在在一些场景中已经很成熟了,主要就是分为CTC和attention两种方案。现在基于attention的方案主要用LSTM和GRU,这种方式的主要问题是:训练和测试的都是one step by one step的,效率较低。这篇文章提出了MASTER,其主要就是用CNN+Transformer的方式实现文字识别,这篇文章的主要创新...原创 2019-10-16 17:44:48 · 2214 阅读 · 5 评论 -
CAAI AIDL 演讲实录丨金连文:“文字检测与识别:现状及展望”
转载自:CAAI AIDL 演讲实录丨金连文:“文字检测与识别:现状及展望” 以下是金连文的演讲实录:金连文:谢谢许老师的介绍,也谢谢组委会的组织及邀请。今天很高兴来这里做一个关于场景文字检测识别最新进展的报告,来到华中科技大学做这个报告压力很大,因为大家知道华中科技大学白老师团队在场景文字检测和识别领域做得非常好,比我们好多了,所以来这里感觉有一点班门弄斧,心中惶惶然…,所以我尽量讲一点有差...转载 2019-09-27 09:16:12 · 994 阅读 · 0 评论 -
Focus-Enhanced Scene Text Recognition with Deformable Convolutions//论文笔记
文章目录2.方法3. 实验论文:https://arxiv.org/pdf/1908.10998.pdf摘要2.方法采用CRNN作为基线网络,并在其中插入deformable modules,插入的位置是在cnn的中间部分,作者说:浅层学到的是基本特征,深层特征图的尺寸太小(一般最后为H/4×W/32)学到的偏移可能不够精确,文字检测中一般将deformable 加到cnn的最后,但是文字...原创 2019-09-27 10:57:00 · 508 阅读 · 0 评论 -
transformerOcr
简介整个项目采用attention ocr的思路进行中文场景文字识别,整个用resnet34采集特征,用transformer的方式做解码器。网络在训练的时候可以并行进行相较于现在常用的GRU做解码器训练速度会快很多。推理的时候还是采用和GRU做解码器同样的方式,将上一步的输出用于下一步的输出,速度并未提升。1. 网络结构...原创 2019-10-10 13:38:40 · 2469 阅读 · 8 评论 -
Omnidirectional Scene Text Detection with Sequential-free Box Discretizati——文本检测论文阅读
文章目录1. 简介2. 相关工作3. 方法1. 简介EAST的问题:问题是,找到一个合适的排序规则来避免由点的序列引起的学习混淆(LC)并非易事基于这一问题,本文提出了一个简单的但是有效的方法称为无顺序盒离散化(SBD),它可以将边界框参数化为键边缘。主要观点是找到与标签无关的至少四个不变点(例如,对角线的平均中心点和交点)我们可以用这些不变点来求反向推导边界框坐标。实验部分显示比现...原创 2019-08-01 14:49:29 · 1077 阅读 · 2 评论 -
OCR论文笔记
问题FCN module for multi-language text recognition,FCN不是做分割的吗?怎么做ocr呢。好像用了FCN之后可以省略RNN层,好像现在的论文都是FCN ocr,crnn,seqtoseq attention ocr这三种技术。有时间撸个项目出来。spatial transformer layer,自动做字符修正的。bilinear interp...原创 2019-06-17 23:07:47 · 728 阅读 · 0 评论 -
FOTS端到端OCR论文阅读
3.2 文字识别部分采用RoIRotate将文字区域输出为固定高度,不同长度的图片,并保持长宽比不变。示意图如下:同时这里采用的是双线性插值方式实现的(有点像roi align)。同时论文提到将特征映射填充到最大宽度,在损失函数中忽略填充部分。此外,不像图像分类,文字识别对检测结果非常敏感,一点的检测误差就会切掉几个像素,这对识别网络是非常有害的。所以训练的时候用的是标注数据;测试...原创 2019-07-19 10:34:54 · 668 阅读 · 0 评论 -
opencv模板匹配做电表读数区域的检测
描述电表读数识别的时候,需要进行读数区域的检测。在PC上用什么方法都可以因为没有硬件限制。在移动端/终端的时候,因为硬件的限制无法用深度学习,可以尝试图像处理的模板匹配。模板图片测试图片code# -*- coding:utf-8 -*-__author__ = 'yibao2hao' import cv2import numpy as npfrom matplotlib ...原创 2019-07-11 11:22:28 · 1404 阅读 · 5 评论 -
自然场景文本检测算法总结
文章目录IncepText: A New Inception-Text Module with Deformable PSROI Pooling for Multi-Oriented Scene Text Detection先来张图片,这是最近最好的算法。IncepText: A New Inception-Text Module with Deformable PSROI Pooling ...原创 2019-07-04 13:03:35 · 2579 阅读 · 0 评论 -
pytorch对梯度进行可视化进行梯度检查
目的: 在训练神经网络的时候,有时候需要自己写操作,比如faster_rcnn中的roi_pooling,我们可以可视化前向传播的图像和反向传播的梯度图像,前向传播可以检查流程和计算的正确性,而反向传播则可以大概检查流程的正确性。实验可视化rroi_align的梯度pytorch 0.4.1及之前,需要声明需要参数,这里将图片数据声明为variableim_data = Variable...原创 2019-06-25 00:07:32 · 12146 阅读 · 3 评论 -
利用pytorch的affine_grid和grid_sample实现rroi_align
原始图片:import randomimport mathimport torchimport numpy as npimport torch.nn.functional as Fimport cv2import matplotlib.pyplot as pltfrom data_gen import draw_box_pointspath = './test/timg.jp...原创 2019-06-22 17:05:19 · 4019 阅读 · 0 评论 -
端到端中文车牌识别
端到端中文车牌识别这是一个pytorch实现的端到端中文车牌识别,整个项目主要是从SSD修改而来的,非常感谢作者的开源。同时项目主要参考了阿里的这篇paperA Novel Integrated Framework for Learning both Text Detection and Recognition的思想,实现了ocr_roi_pooling,基于此,可以将检测、分类和文字识别整合在...原创 2019-06-07 20:19:10 · 4011 阅读 · 11 评论 -
OCR检测方法(一)——TextBoxes与TextBoxes++算法详解
转载自:TextBoxes与TextBoxes++算法详解尊重原创,请看原文文章目录TextBoxes一、网络结构二、损失函数的定义TextBoxes++一、网络结构二、网络的输出及ground truth的表示三、损失函数的定义自己的总结textboxestextboxes++疑问TextBoxes《TextBoxes: A Fast Text Detector with a Singl...转载 2019-06-05 18:41:50 · 2498 阅读 · 0 评论 -
OCR大综述
端到端OCR实验与结果记录上一份工作主要是做OCR识别的相关工作。当时的主要思路就是分成检测+ocr识别两个步骤来实现。关键点:图像采集设备。很容易出现曝光过重的情况。文字有长,有短。文本行有倾斜,旋转的情况,对检测部分就需要支持旋转文本检测同时在很多OCR识别场景中是比较简单的。比如车牌识别,在这个任务中:1. 检测部分目标较少。一个场景中最多只有几张车牌。2. 识别部分相对来说...原创 2019-05-31 11:55:22 · 3258 阅读 · 1 评论 -
端到端OCR实验记录
文章目录1. 采用crnn的主网络,采用roi_pooling,1. 采用crnn的主网络,采用roi_pooling,采用的crnn的主网络进行特征提取,高度方向/16,宽度方向/4,然后在一张图片中有两个文本区域。特征提取完成之后,采用faster rcnn的roi_pooling对两个区域进行池化操作,pooled_height = 2, pooled_width = 2 × maxra...原创 2019-05-23 13:57:49 · 807 阅读 · 0 评论 -
PSENET——OCR文本检测论文阅读
文章目录摘要1. 介绍3. 提出的方法3.1 整体框架3.2 网络设计3.3 渐进式尺度扩展算法3.4 目标标签3.5 损失函数4. 实验摘要1. 介绍PSENet的优势有:基于分割的办法,能检测任意形状的文字提出了一种渐进扩张算法,能有效分割位置很近的文本每个文本实例(目标区域)有多个预测的分割实例(如何整合得到输出的?)为了得到最后的文本区域采用了Breadth-Fir...原创 2019-07-19 14:41:29 · 3635 阅读 · 6 评论 -
IncepText——自然场景中文本检测论文阅读
文章目录摘要介绍相关工作提出的方法3.1 overview3.2 Inception-Text3.3 deformable PSPOI Pooling3.4 标签和损失函数实验摘要介绍文本检测的难点是有多种变化的场景:如街景,邮局,室内等,还有各种各样的前景文字和背景物体,各种光亮、模糊和方向。文字检测算法的发展传统特征方法:MSER(2010),FASText(2015)基...原创 2019-07-24 12:04:36 · 409 阅读 · 0 评论 -
ICDAR2019结果
链接原创 2019-08-15 17:46:26 · 2324 阅读 · 0 评论 -
用attention如何做不定长字符的识别?
如题,请教!原创 2019-08-14 17:43:24 · 928 阅读 · 3 评论 -
中文检测与识别数据集整理
文章目录1. 检测2. 识别3. 人工生成检测的数据集是:中文文字在一张图片上;识别的话是:已经crop出来了文本行的情况。1. 检测A Large Chinese Text Dataset in the Wild腾讯地图中获取的图片,有单个字符的标注。MTWI 2018 挑战赛二:网络图像的文本检测阿里天池文本检测大赛,主要是互联网收集和人工合成的图片,但是标注文字区域的八个点,...原创 2019-08-06 11:08:15 · 2397 阅读 · 0 评论 -
文字识别的主要问题
不同样式的字体竖直的文本特殊的字符,如符号等曝光或被遮蔽低分辨率标注有问题的原创 2019-08-01 16:39:04 · 810 阅读 · 0 评论 -
What is wrong with scene text recognition model comparisons? dataset and model analysis论文阅读
文章目录摘要1. 简介2. 数据集2.1 人工合成的数据集2.2 显示数据集for测试3. STR框架分析4. 实验和分析摘要1. 简介使用递归神经网络来预测不定长的字符。也有人提出了一个转换模块,将输入的图片进行矫正来处理弯曲的文本。论文的主要贡献分析了现有论文提到的各个数据集的不一致性。针对OCR识别提出了一个统一的框架,将模型分成4个连续的部分:矫正转换(Trans),...原创 2020-01-06 14:27:53 · 2292 阅读 · 0 评论 -
Aggregation Cross-Entropy for Sequence Recognition论文阅读
文章目录摘要1.简介2. 相关工作4. 实验4.1 场景文字识别4.1.3 实验结果摘要1.简介最近出现的CTC[13]和注意机制[1]通过绕过输入图像与其对应标签序列之间的先验对齐,显著缓解了这种顺序训练问题。但是CTC有大量的计算消耗,此外,CTC很难处理2D的序列问题。attention需要额外的标签和计算消耗,同时很难从零开始学习,此外attention对长序列的效果不好...原创 2019-07-25 17:03:41 · 1961 阅读 · 19 评论