OCR
文章平均质量分 73
watersink
你怎么对这个世界,世界就会还你一个怎么样的它
展开
-
PP-OCR
论文:PP-OCR: A Practical Ultra Lightweight OCR SystemGithub:https://github.com/PaddlePaddle/PaddleOCR百度开源的ocr检测+识别系统,称为PP-OCR。PP-OCR的中文字符识别模型仅3.5M,支持识别6622个中文字符。英文字符识别模型2.8M,支持识别63个英文字符。并且PP-OCR还支持识别法语,韩语,日语,德语等多国语言。整体流程:首先输入待检测图片,然后进行文本行...原创 2021-02-21 11:48:11 · 2556 阅读 · 1 评论 -
文档布局分析之dhSegment
论文:dhSegment: A generic deep-learning approach for document segmentationGithub:https://github.com/dhlab-epfl/dhSegment ICFHR 2018论文主要基于U-net类型的网络,分别进行page extraction,baseline extraction,layout...原创 2018-12-06 16:29:54 · 2065 阅读 · 0 评论 -
文档布局分析工具之DIVA
论文:Open Evaluation Tool for Layout Analysisof Document ImagesGithub:https://github.com/DIVA-DIA/DIVA_Layout_Analysis_EvaluatorIAPR 2017论文提出了一个文档布局分析的基于像素级别的标注化工具。该评测工具已经在ICDAR 2017 文档布局分...原创 2018-12-06 19:19:25 · 1062 阅读 · 0 评论 -
文本检测之TextSnake
论文:TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes Face++ 2018 ECCV论文。上图描述了目前文本检测的几种机制。基于轴对齐方式的矩形框,只对水平和竖直的文本奏效,对于倾斜,弯折,曲面的文本,会引入好多背景无关区域。 基于旋转的矩形框,也就是(a)的基础上...原创 2018-08-14 18:03:44 · 7641 阅读 · 8 评论 -
场景文字检测之CTPN
论文:Detecting Text in Natural Image with Connectionist Text Proposal NetworkGithub(caffe版本):https://github.com/tianzhi0549/CTPNGithub(tensorflow版本):https://github.com/eragonruan/text-detection-ctpn...原创 2018-07-11 17:29:38 · 9271 阅读 · 9 评论 -
文本行检测之PixelLink
论文:PixelLink: Detecting Scene Text via Instance Segmentation Github:https://github.com/ZJULearning/pixel_link 整体框架: PixelLink主要基于CNN网络,分别做文本,非文本分类预测和像素的8个方向是否连接预测这2个任务。然后基于Opencv的minAreaRe...原创 2018-07-07 18:17:37 · 14529 阅读 · 1 评论 -
EAST: An Efficient and Accurate Scene Text Detector
论文:An Efficient and Accurate Scene Text Detectorgithub:https://github.com/argman/EAST旷世科技在CVPR2017的作品优势:提供了方向信息,可以检测各个方向的文本缺点:对较长的文本检测效果不好,感受野不够长网络结构:整体网络结构分为3个部分(1) 特征提取层...原创 2018-01-06 08:21:36 · 14709 阅读 · 37 评论 -
LeNet识别自己的手写数字
LeNet在训练结束后会给出其在验证集上的识别率,达到了99%的识别效果,感觉很牛,但是心中一直有一丝不快,总感觉少点什么。吃瓜群主也许要问了,那么我要测试自己随机找的一个数字图片呢?我要测试自己写的一个数字呢?这个也正是我想在这里解决的问题,这篇博文基于c++实现了调用LeNet网络进行自己手写的数字识别。主要程序如下: class Classifier {publ...原创 2017-02-07 15:33:39 · 7777 阅读 · 39 评论 -
场景文字检测之TextBoxes
传统的文字检测有3个思路:(1) Character-based(2) Word-based(3) Text-line-based TextBoxes: A Fast Text Detector with aSingle Deep Neural Network是华中科技,白翔老师组的,AAAI2017,论文主要是基于SSD做了以下的修改,...原创 2017-09-14 13:09:29 · 8118 阅读 · 12 评论 -
基于多级同质结构的文档布局分析
论文:A robust system for document layout analysis using multilevel homogeneity structure 论文贡献:有别于MHS方法,论文提出的方法支持多种语言的文档 对于文本,非文本的分类在MHS的基础上增加了MLL分类方法 对于文本分割,提出了文本线的提取和数学拓扑方法 本文提出的系统包含了一个鲁棒的表...原创 2018-12-17 14:23:41 · 759 阅读 · 0 评论 -
文档角度检测
论文:Image Orientation Estimation with Convolutional Networks 传统Hough transform :import numpy as npimport cv2import mathfrom scipy import ndimageimg_before = cv2.imread('./6ae1.jpg')cv2...原创 2019-01-24 14:45:41 · 947 阅读 · 3 评论 -
attention_ocr
论文:Attention-based Extraction of Structured Information from Street View ImageryGithub:https://github.com/tensorflow/models/tree/master/research/attention_ocr 论文提出了基于attention机制的自然场景图片的ocr识别,在Fr...原创 2019-01-09 12:07:11 · 9447 阅读 · 2 评论 -
文本检测年度2018梳理
论文:Verisimilar Image Synthesis for Accurate Detection and Recognition of Texts in Scenes论文主要通过人工生成数据的方式来辅助训练,使得最终精度有提升。制造训练数据的主要改进点:语义一致性,保证所写的字只能在一个语意的目标上,而不能横跨多个语意,比如字只能写在墙壁上,而不是天空。字只能写在本子上,而不...原创 2019-01-30 18:24:03 · 3799 阅读 · 3 评论 -
文字检测+识别之FOTS
论文:FOTS: Fast Oriented Text Spotting with a Unified NetworkGithub:https://github.com/jiangxiluning/FOTS.PyTorch 商汤和深圳先进院乔宇老师合租的作品。 FOTS是一个快速的端到端的集成检测+识别的框架,和其他two stage的方法相比,FOTS具有更快的速度。...原创 2018-11-29 16:55:50 · 19230 阅读 · 9 评论 -
字体风格迁移之Multi-Content GAN
论文:Multi-Content GAN for Few-Shot Font Style TransferGitHub:https://github.com/azadis/MC-GAN 论文为cvpr2018,伯克利的BAIR实验室和adobe合作的论文。 整体框架:Multi-Content GAN是由两个条件gan堆叠而成。如上图所示,整个Multi-Content...原创 2018-10-08 18:04:22 · 6710 阅读 · 3 评论 -
CRNN端到端文字识别
Convolutional Recurrent Neural Network(CRNN),华科白翔老师组的作品,An End-to-End Trainable Neural Network for Image-based Sequence Recognition and ItsApplication to Scene Text Recognition整体流程:CNN+biLSTM+CTC...原创 2019-08-05 11:35:15 · 20002 阅读 · 55 评论 -
场景文字识别Sliding Convolution笔记
出自文章,Scene Text Recognition with Sliding Convolutional Character Models方法优势:(1)相对于基于先分割再识别的方法,该方法避免了复杂的字符分割过程。(2)避免了rnn训练过程中的梯度消失和梯度爆炸的问题,使得训练过程比较容易(3)相对于基于单词识别的方法,该基于字符识别的方法可以识别基于单词的方法不能识别的单词...原创 2018-02-11 19:42:55 · 4156 阅读 · 8 评论 -
空间变换网络STN
出自论文Spatial Transformer NetworksInsight:文章提出的STN的作用类似于传统的矫正的作用。比如人脸识别中,需要先对检测的图片进行关键点检测,然后使用关键点来进行对齐操作。但是这样的一个过程是需要额外进行处理的。但是有了STN后,检测完的人脸,直接就可以做对齐操作。关键的一点就是这个矫正过程是可以进行梯度传导的。想象一下,人脸检测完了,直接使用R原创 2018-03-10 19:20:40 · 28203 阅读 · 6 评论 -
端到端的文本检测识别
选自ICCV 2017 澳大利亚阿德莱德大学沈春华老师组的作品Towards End-to-end Text Spotting with Convolutional Recurrent Neural Networks 。是目前为止第一篇提出端到端OCR文字检测+识别的文章。 文章主要3点贡献:(1)提出端到端的OCR检测+识别的框架(2)改进的ROI pooling。相比于fasterRCNN中R...原创 2018-05-21 18:35:27 · 11638 阅读 · 1 评论 -
字符识别引擎Calamari总结
论文:Calamari - A High-Performance Tensorflow-based Deep Learning Package for Optical Character Recognition Github:https://github.com/Calamari-OCR/calamari依赖:Python3Tensorflow1.8图片预处理:灰度图片 ...原创 2018-07-18 18:42:50 · 5754 阅读 · 2 评论 -
识别引擎ocropy->ocropy2->OCRopus3总结
论文:The OCRopus Open Source OCR SystemTransfer Learning for OCRopus Model Training on Early Printed BooksGitHub:https://github.com/tmbdev/ocropyhttps://github.com/tmbdev/ocropy2https://gith...原创 2018-07-28 17:24:54 · 7103 阅读 · 24 评论 -
文字检测+识别之Deep_TextSpotter
论文:Deep TextSpotter: An End-to-End Trainable Scene Text Localization and Recognition Framework Github:https://github.com/MichalBusta/DeepTextSpotter ICCV 2017的文章Pipeline:整体流程,输入图片先进行一个...原创 2018-08-09 16:29:20 · 4085 阅读 · 1 评论 -
TextSpotter with Explicit Alignment and Attention
论文:An end-to-end TextSpotter with Explicit Alignment and Attention Github:https://github.com/tonghe90/textspotter cvpr 2018 paper。阿德莱德大学沈春华老师和先进院乔宇老师分别为4,5作者。Pipeline:整个流程包括基于Pvanet的基础...原创 2018-08-10 12:08:49 · 1407 阅读 · 0 评论 -
文本检测+识别之Mask TextSpotter
论文:Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes 文章主要基于mask RCNN做的改进,提出了一种可以对各种曲面文字进行检测的框架。并具体对10个数字+26个字母共36个字母的识别能力。第一个图表示只能进行水平检测的框架,第二个图...原创 2018-08-08 11:54:32 · 12659 阅读 · 14 评论 -
ICPR-2018-OCR笔记
2018年第24届国际模式识别大会International Conference on Pattern Recognition (ICPR)在北京国家会议中心召开,会议从8月20日到24日持续1周时间。有阿里的读光平台的介绍,周志华的的deep forest,以及业内大佬。还可以与作者面对面交流post,感觉提升很大。官网:http://www.icpr2018.org/ 论文...原创 2018-08-30 12:31:36 · 11812 阅读 · 12 评论 -
基于可视化检测的文档质量提升
论文:Document Enhancement using Visibility Detection cvpr2018论文。论文主要基于3d点云的方法,对文档图片进行去阴影操作,进而提升检测和识别。整体流程:首先作者将一副图像想象成具有哦3d信息的点云。像素值的大小表示3d表面的凹凸。白色背景表示为高原,污迹,阴影表示为火山地带,黑色的字表示为峡谷。由b中绿色的点对整个3d点云...原创 2018-09-15 19:21:15 · 753 阅读 · 0 评论 -
文字检测识别引擎罗塞塔(Roseta)
论文:Large Scale System for Text Detection and Recognition in Images Facebook的OCR引擎。OCR部分包括检测和识别2部分。是分别进行检测和识别的框架。检测和识别分开训练。检测模型基于caffe2训练,识别模型基于pytorch训练,最终都部署为caffe2。 检测框架:检测框架采用faster RCN...原创 2018-09-15 22:18:47 · 1275 阅读 · 0 评论 -
中文街景数据集CTW
源自论文,Chinese Text in the Wild主要包含32285张图片,共计1018402个汉字,3850个汉字类别。主要来自清华-腾讯100K数据集和腾讯街景数据集。图片大小为2048*2048。其中训练集:检测测试集:识别测试集=8:1:1该数据集可以用于自然场景文字的检测和识别2个任务。 Annotation 包括:(1) 每个汉字的检测框(2) 一行汉字的检测框(3) 是否遮挡...原创 2018-03-05 15:00:54 · 10951 阅读 · 3 评论