光学字符识别(OCR)
aift
不破楼兰终不还!
展开
-
PAN解读 —— Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network
文章目录简述网络结构BackboneSegmentation Head简述本文介绍的是一个“Face++ ”在今年8月份刚刚发在ICCV 2019上面的论文——PAN(像素聚合网络),这是一篇文字检测方面的论文,其达到了目前文字检测的最好效果。之前在CVPR 2019上发的PSENet是之前效果非常好的文本检测算法,PAN的作者还是之前PSENet算法的原班作者,所以说我们可以把PAN看做是...原创 2019-10-23 22:26:19 · 6260 阅读 · 6 评论 -
CRNN——pytorch + wrap_ctc编译,实现pytorch版CRNN
简介CTC可以生成一个损失函数,用于在序列数据上进行监督式学习,不需要对齐输入数据及标签,经常连接在一个RNN网络的末端,训练端到端的语音或文本识别系统。CTC论文本文主要是讲解用wrap_ctc实现pytorch版本的CRNN,用其来进行OCR端到端文本识别。(注:wrap_ctc是百度开源的一个模块,需要自己编译使用。在pytorch 1.0中,自带了CTC loss,用pytorch 1...原创 2019-05-19 00:07:49 · 4655 阅读 · 2 评论 -
字符分割算法及代码
之前一段时间做了一个少数民族语言的文字检测与识别的项目,一共有6种语言,其中的彝语的识别相对简单,部分彝语文档图片如下。由于印刷体版式工整,加之彝语的结构较为简单,遂采取了单字符分割+识别的流程来进行彝语的识别工作。(其实主要还是因为训练样本不够啊,外加“某局”希望能得到单字符的坐标,不然直接用CRNN来做序列识别可能会更简单一点,卒。。。)上图所示为彝语打印文档的一张扫描件示例图。由图可见彝...原创 2019-05-07 09:31:31 · 5134 阅读 · 9 评论 -
PSENet解读——Shape Robust Text Detection with Progressive Scale Expansion Network
简述paper:https://arxiv.org/abs/1806.02559code:https://github.com/whai362/PSENetPSENet(渐进式的尺度扩张网络),最新的版本是CVPR 2019的一篇论文,近来18、19年在文本检测领域出现了很多针对“弯曲文本”检测的算法,PSENet就是其中之一(代码开源啦~~)。目前文本检测领域主要有两种方法,一种是A...原创 2019-05-15 20:51:37 · 5887 阅读 · 0 评论 -
CRNN网络结构及其实现
网络结构网络层参数代码实现(pytorch)import torch.nn as nnclass BidirectionalLSTM(nn.Module): def __init__(self, nIn, nHidden, nOut): super(BidirectionalLSTM, self).__init__() self.rnn ...原创 2019-06-19 22:04:53 · 4043 阅读 · 3 评论 -
CRNN解读 —— An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its ……
文章目录简述各层介绍卷积层(CNN)循环层(Bi-LSTM)转录层(CTC)网络损失定义网络结构代码(Talk is cheap. Show me the code.)References简述paper: https://arxiv.org/abs/1507.05717code:https://github.com/meijieru/crnn.pytorch额,,,很早之前就看过了,非...原创 2019-07-10 18:28:46 · 2883 阅读 · 0 评论 -
FOTS解读 —— Fast Oriented Text Spotting with a Unified Network
文章目录简述网络结构backbone检测分支RoIRotate分支识别分支损失函数简述FOTS是CVPR 2018的一篇论文,其是第一篇针对多方向文本的端到端可训练的文本检测+识别算法。(反正论文中是这么说的,感觉貌似不是,莫在意)paper:https://arxiv.org/abs/1801.01671code:https://github.com/jiangxiluning/FOT...原创 2019-07-10 22:33:08 · 2201 阅读 · 0 评论 -
EAST解读 —— An Efficient and Accurate Scene Text Detector
文章目录简述现有工作问题数据集网络结构特征提取层特征合并层结果输出层标签生成损失函数文本分割LossRBOX边界偏移LossRBOX偏移角度损失QUAD偏移LossLocality-Aware NMS实验结果简述EAST是旷视科技CVPR 2017年的一篇场景文本检测算法,其特点有:结构简单,速度快,端到端等,Github上有很好的复现代码,是一种实用性很强的文本检测算法。paper:ht...原创 2019-07-22 18:41:16 · 2570 阅读 · 0 评论