OCR大趴踢
文章平均质量分 67
主要包含版式分析,ocr检测,ocr分割,ocr识别等
watersink
你怎么对这个世界,世界就会还你一个怎么样的它
展开
-
文本识别之MASTER
transformer的解码与lstm的解码类似,用encoder部分的输出计算注意力权重,并对输入向量重新分配,获得当前时刻的输入。在解码阶段首先用multi-head attention计算当前时刻的输入编码,得到tmp_feature,相当于LSTM中将时刻t-1的输出输入到模型中,随后获取encoder部分的输出,分别作为Key和quary,计算获得注意力权重,并利用该权重对tmp_feature(value)重新分配,得到当前时刻的特征结果。Encoding部分由4个block的残差模块组成。原创 2022-10-08 14:29:04 · 1439 阅读 · 0 评论 -
文本检测之DBNet,DBNet++
一个负责预测概率图(probability map,(w/4)*(h/4)*1),代销为,另一个负责预测阈值图(threshold map,(w/4)*(h/4)*1)。概率图经过阈值图处理,进行二值化后得到二值图(approximate binary map,(w/4)*(h/4)*1)。然后计算图内每个像素离最近的边(蓝色边,绿色边)的归一化距离,形成最终的阈值图。两者在效果上是一样的。为了保证整个优化过程有梯度的传递,这里又将概率图和阈值图的差传入sigmoid函数,以此来保证梯度的传递。原创 2022-09-29 11:19:27 · 10635 阅读 · 1 评论 -
车牌识别之LPRNet
论文:LPRNet: License Plate Recognition via Deep Neural NetworksGithub:https://github.com/sirius-ai/LPRNet_Pytorch论文提出了一种车牌识别算法,LPRNet,即License Plate RecognitionNetwork,也就是车牌识别网络。该网络本质还是crnn的轻量化的修改。使用的损失函数还是ctcloss,最终取得了95%的准确性,在1080显卡上达到3ms每张的速度,在...原创 2021-10-15 15:07:20 · 19373 阅读 · 10 评论 -
ocr大pk(阿里读光,百度,face++,有道)
阿里读光#https://market.aliyun.com/products/57124001/cmapi023866.html?spm=a2c0j.8222507.973837.1.4dd8e532YZ2wUE#sku=yuncode1786600000#https://market.aliyun.com/products/57124001/cmapi028554.html?spm=a2c0j.8222507.1092900.1.4dd8e532YZ2wUE#sku=yuncode2255400原创 2021-03-22 22:33:45 · 1978 阅读 · 1 评论 -
基于python3 pdf转化为图片
安装:apt-get install python-popplerapt install poppler-utilspip3 install pdfminer.sixpip3 install pdf2imagepdf_decompose.py#!/usr/bin/python3# -*- coding: utf-8 -*-import ioimport ...原创 2020-03-11 16:00:19 · 1595 阅读 · 0 评论 -
文本检测年度2018梳理
论文:Verisimilar Image Synthesis for Accurate Detection and Recognition of Texts in Scenes论文主要通过人工生成数据的方式来辅助训练,使得最终精度有提升。制造训练数据的主要改进点:语义一致性,保证所写的字只能在一个语意的目标上,而不能横跨多个语意,比如字只能写在墙壁上,而不是天空。字只能写在本子上,而不...原创 2019-01-30 18:24:03 · 3817 阅读 · 3 评论 -
attention_ocr
论文:Attention-based Extraction of Structured Information from Street View ImageryGithub:https://github.com/tensorflow/models/tree/master/research/attention_ocr 论文提出了基于attention机制的自然场景图片的ocr识别,在Fr...原创 2019-01-09 12:07:11 · 9464 阅读 · 2 评论 -
基于多级同质结构的文档布局分析
论文:A robust system for document layout analysis using multilevel homogeneity structure 论文贡献:有别于MHS方法,论文提出的方法支持多种语言的文档 对于文本,非文本的分类在MHS的基础上增加了MLL分类方法 对于文本分割,提出了文本线的提取和数学拓扑方法 本文提出的系统包含了一个鲁棒的表...原创 2018-12-17 14:23:41 · 771 阅读 · 0 评论 -
文档布局分析工具之DIVA
论文:Open Evaluation Tool for Layout Analysisof Document ImagesGithub:https://github.com/DIVA-DIA/DIVA_Layout_Analysis_EvaluatorIAPR 2017论文提出了一个文档布局分析的基于像素级别的标注化工具。该评测工具已经在ICDAR 2017 文档布局分...原创 2018-12-06 19:19:25 · 1078 阅读 · 0 评论 -
文档布局分析之dhSegment
论文:dhSegment: A generic deep-learning approach for document segmentationGithub:https://github.com/dhlab-epfl/dhSegment ICFHR 2018论文主要基于U-net类型的网络,分别进行page extraction,baseline extraction,layout...原创 2018-12-06 16:29:54 · 2079 阅读 · 0 评论 -
文字检测+识别之FOTS
论文:FOTS: Fast Oriented Text Spotting with a Unified NetworkGithub:https://github.com/jiangxiluning/FOTS.PyTorch 商汤和深圳先进院乔宇老师合租的作品。 FOTS是一个快速的端到端的集成检测+识别的框架,和其他two stage的方法相比,FOTS具有更快的速度。...原创 2018-11-29 16:55:50 · 19244 阅读 · 9 评论 -
字体风格迁移之Multi-Content GAN
论文:Multi-Content GAN for Few-Shot Font Style TransferGitHub:https://github.com/azadis/MC-GAN 论文为cvpr2018,伯克利的BAIR实验室和adobe合作的论文。 整体框架:Multi-Content GAN是由两个条件gan堆叠而成。如上图所示,整个Multi-Content...原创 2018-10-08 18:04:22 · 6728 阅读 · 3 评论 -
文字检测识别引擎罗塞塔(Roseta)
论文:Large Scale System for Text Detection and Recognition in Images Facebook的OCR引擎。OCR部分包括检测和识别2部分。是分别进行检测和识别的框架。检测和识别分开训练。检测模型基于caffe2训练,识别模型基于pytorch训练,最终都部署为caffe2。 检测框架:检测框架采用faster RCN...原创 2018-09-15 22:18:47 · 1354 阅读 · 0 评论 -
基于可视化检测的文档质量提升
论文:Document Enhancement using Visibility Detection cvpr2018论文。论文主要基于3d点云的方法,对文档图片进行去阴影操作,进而提升检测和识别。整体流程:首先作者将一副图像想象成具有哦3d信息的点云。像素值的大小表示3d表面的凹凸。白色背景表示为高原,污迹,阴影表示为火山地带,黑色的字表示为峡谷。由b中绿色的点对整个3d点云...原创 2018-09-15 19:21:15 · 780 阅读 · 0 评论 -
ICPR-2018-OCR笔记
2018年第24届国际模式识别大会International Conference on Pattern Recognition (ICPR)在北京国家会议中心召开,会议从8月20日到24日持续1周时间。有阿里的读光平台的介绍,周志华的的deep forest,以及业内大佬。还可以与作者面对面交流post,感觉提升很大。官网:http://www.icpr2018.org/ 论文...原创 2018-08-30 12:31:36 · 11884 阅读 · 12 评论 -
文本检测之TextSnake
论文:TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes Face++ 2018 ECCV论文。上图描述了目前文本检测的几种机制。基于轴对齐方式的矩形框,只对水平和竖直的文本奏效,对于倾斜,弯折,曲面的文本,会引入好多背景无关区域。 基于旋转的矩形框,也就是(a)的基础上...原创 2018-08-14 18:03:44 · 7692 阅读 · 8 评论 -
TextSpotter with Explicit Alignment and Attention
论文:An end-to-end TextSpotter with Explicit Alignment and Attention Github:https://github.com/tonghe90/textspotter cvpr 2018 paper。阿德莱德大学沈春华老师和先进院乔宇老师分别为4,5作者。Pipeline:整个流程包括基于Pvanet的基础...原创 2018-08-10 12:08:49 · 1421 阅读 · 0 评论 -
文字检测+识别之Deep_TextSpotter
论文:Deep TextSpotter: An End-to-End Trainable Scene Text Localization and Recognition Framework Github:https://github.com/MichalBusta/DeepTextSpotter ICCV 2017的文章Pipeline:整体流程,输入图片先进行一个...原创 2018-08-09 16:29:20 · 4122 阅读 · 1 评论 -
文本检测+识别之Mask TextSpotter
论文:Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes 文章主要基于mask RCNN做的改进,提出了一种可以对各种曲面文字进行检测的框架。并具体对10个数字+26个字母共36个字母的识别能力。第一个图表示只能进行水平检测的框架,第二个图...原创 2018-08-08 11:54:32 · 12695 阅读 · 14 评论 -
识别引擎ocropy->ocropy2->OCRopus3总结
论文:The OCRopus Open Source OCR SystemTransfer Learning for OCRopus Model Training on Early Printed BooksGitHub:https://github.com/tmbdev/ocropyhttps://github.com/tmbdev/ocropy2https://gith...原创 2018-07-28 17:24:54 · 7149 阅读 · 24 评论 -
字符识别引擎Calamari总结
论文:Calamari - A High-Performance Tensorflow-based Deep Learning Package for Optical Character Recognition Github:https://github.com/Calamari-OCR/calamari依赖:Python3Tensorflow1.8图片预处理:灰度图片 ...原创 2018-07-18 18:42:50 · 5780 阅读 · 2 评论 -
场景文字检测之CTPN
论文:Detecting Text in Natural Image with Connectionist Text Proposal NetworkGithub(caffe版本):https://github.com/tianzhi0549/CTPNGithub(tensorflow版本):https://github.com/eragonruan/text-detection-ctpn...原创 2018-07-11 17:29:38 · 9314 阅读 · 9 评论 -
CRNN端到端文字识别
Convolutional Recurrent Neural Network(CRNN),华科白翔老师组的作品,An End-to-End Trainable Neural Network for Image-based Sequence Recognition and ItsApplication to Scene Text Recognition整体流程:CNN+biLSTM+CTC...原创 2019-08-05 11:35:15 · 20040 阅读 · 55 评论 -
场景文字识别Sliding Convolution笔记
出自文章,Scene Text Recognition with Sliding Convolutional Character Models方法优势:(1)相对于基于先分割再识别的方法,该方法避免了复杂的字符分割过程。(2)避免了rnn训练过程中的梯度消失和梯度爆炸的问题,使得训练过程比较容易(3)相对于基于单词识别的方法,该基于字符识别的方法可以识别基于单词的方法不能识别的单词...原创 2018-02-11 19:42:55 · 4174 阅读 · 8 评论 -
中文街景数据集CTW
源自论文,Chinese Text in the Wild主要包含32285张图片,共计1018402个汉字,3850个汉字类别。主要来自清华-腾讯100K数据集和腾讯街景数据集。图片大小为2048*2048。其中训练集:检测测试集:识别测试集=8:1:1该数据集可以用于自然场景文字的检测和识别2个任务。 Annotation 包括:(1) 每个汉字的检测框(2) 一行汉字的检测框(3) 是否遮挡...原创 2018-03-05 15:00:54 · 11007 阅读 · 3 评论 -
空间变换网络STN
出自论文Spatial Transformer NetworksInsight:文章提出的STN的作用类似于传统的矫正的作用。比如人脸识别中,需要先对检测的图片进行关键点检测,然后使用关键点来进行对齐操作。但是这样的一个过程是需要额外进行处理的。但是有了STN后,检测完的人脸,直接就可以做对齐操作。关键的一点就是这个矫正过程是可以进行梯度传导的。想象一下,人脸检测完了,直接使用R原创 2018-03-10 19:20:40 · 28249 阅读 · 6 评论 -
场景文字检测之TextBoxes
传统的文字检测有3个思路:(1) Character-based(2) Word-based(3) Text-line-based TextBoxes: A Fast Text Detector with aSingle Deep Neural Network是华中科技,白翔老师组的,AAAI2017,论文主要是基于SSD做了以下的修改,...原创 2017-09-14 13:09:29 · 8157 阅读 · 12 评论 -
EAST: An Efficient and Accurate Scene Text Detector
论文:An Efficient and Accurate Scene Text Detectorgithub:https://github.com/argman/EAST旷世科技在CVPR2017的作品优势:提供了方向信息,可以检测各个方向的文本缺点:对较长的文本检测效果不好,感受野不够长网络结构:整体网络结构分为3个部分(1) 特征提取层...原创 2018-01-06 08:21:36 · 14746 阅读 · 37 评论 -
端到端的文本检测识别
选自ICCV 2017 澳大利亚阿德莱德大学沈春华老师组的作品Towards End-to-end Text Spotting with Convolutional Recurrent Neural Networks 。是目前为止第一篇提出端到端OCR文字检测+识别的文章。 文章主要3点贡献:(1)提出端到端的OCR检测+识别的框架(2)改进的ROI pooling。相比于fasterRCNN中R...原创 2018-05-21 18:35:27 · 11680 阅读 · 1 评论 -
文本行检测之PixelLink
论文:PixelLink: Detecting Scene Text via Instance Segmentation Github:https://github.com/ZJULearning/pixel_link 整体框架: PixelLink主要基于CNN网络,分别做文本,非文本分类预测和像素的8个方向是否连接预测这2个任务。然后基于Opencv的minAreaRe...原创 2018-07-07 18:17:37 · 14558 阅读 · 1 评论