![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
文字识别
文章平均质量分 58
AICVer
专注计算机视觉,文本检测识别,目标检测等
展开
-
百度飞桨PaddleOCR 使用记录(踩坑记录)
1.首先按照官方指南来操作https://github.com/PaddlePaddle/PaddleOCR2.训练自己的文本检测数据时要转换成其格式(json字符时注意要使用双引号,特殊字符要转换)3.训练时发现内存会不断增加,最终会爆内存a.首先把 configs/det/det_db_icdar15_reader.yml 配置里面的 num_workers设置为1。b.将ppocr/data/reader_main.py的75行return paddle.reader.multipr原创 2020-07-29 22:38:45 · 8901 阅读 · 0 评论 -
SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition
Abstract 自然场景文本识别是计算机视觉一个很热的话题。最近很多识别任务都基于编码-解码框架,他们可以处理透视以及弯曲的文本。但还有很多挑战,如模糊,缺失等。本篇论文我们提出了基于语义增强的编解码框架网络来增强识别低质量文本。同时ASTER融合进网络里。...原创 2020-08-06 13:01:29 · 353 阅读 · 0 评论 -
论文翻译之Character Region Awareness for Text Detection
摘要引言原创 2019-07-22 07:15:33 · 1376 阅读 · 0 评论 -
EAST keras版本问题解决
github地址:https://github.com/kurapan/EAST1.model = model_from_json 报错TypeError: arg 5 (closure) must be None or tuplekeras从2.2降到2.1.3成功解决2. 编译的.so文件 undefined symbol: _Py_ZeroStructmakefile文件使用...原创 2018-12-10 16:28:33 · 1042 阅读 · 2 评论 -
MSRA-TD500数据集坐标转换
1.根据MSRA-TD500原旋转坐标,转换成多边形坐标import osfrom math import *import mathdef rotate(angle, x, y): """ 基于原点的弧度旋转 :param angle: 弧度 :param x: x :param y: y :retur...原创 2018-10-24 13:13:14 · 1529 阅读 · 3 评论 -
场景文字检测与识别相关论文
一 文字检测Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentationhttps://arxiv.org/abs/1802.08948B. Shi, X. Bai, S. Belongie. Detecting oriented text in natural images by linki...原创 2018-05-29 16:05:35 · 3108 阅读 · 0 评论 -
文本检测论文学习
1.Single Shot Text Detector with Regional Attention本篇论文主要基于vgg16的ssd网络进行改进,由上图可以清晰的看出上中下三个部分,上层是SSD骨架网络结构,中层添加文本注意力模块使网络能够更加关注文本区域,同时融合不同尺度的特征,可以看出是借鉴了FCN以及GooleNet。创新点:1.文本注意力机制(还不太理解)2.多尺度特征融合...原创 2018-06-13 17:02:15 · 766 阅读 · 0 评论 -
文本检测 论文阅读笔记之 Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks
Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks摘要:最近语义分割和通用对象检测框架已被场景广泛采用文本检测任务,但是他们在实践中存在明显的缺陷。在本文中,我们提出一种新颖的端到端可训练的深度神经网络框架,名为Pixel-Anchor,它结合了语义分割和SSD在一个网络中,通过特征共享和anchor...原创 2018-12-04 17:54:21 · 1665 阅读 · 0 评论 -
文本识别CRNN论文翻译
文本识别CRNN论文摘要二级目录三级目录摘要 本文提出了一个新的网络架构,融合特征提取,序列模型和转录为一个统一的架构。相比于之前的场景文本识别,本问提出的方法有4个特别的地方:1.端到端的训练;2.可以处理任意长度的序列;3.不受限于预定的词汇(不基于词典)4.更高效更小的模型。二级目录三级目录...原创 2020-05-06 13:06:49 · 611 阅读 · 0 评论 -
Synthetic Data for Text Localisation in Natural Images(人工合成带有文本的图片)
https://github.com/JarveeLee/SynthText_Chinese_version1.解决python3的pickle.load错误:a bytes-like object is required, not 'str'经过几番查找,发现是Python3和Python2的字符串兼容问题,因为数据文件是在Python2下序列化的,所以使用Python3读取时,需要将‘...原创 2018-10-22 16:31:10 · 725 阅读 · 2 评论 -
2020 场景文本识别相关论文
CVPR 2020论场景文本识别中的词汇依赖性[1].On Vocabulary Reliance in Scene Text Recognition作者 |Zhaoyi Wan, Jielei Zhang, Liang Zhang, Jiebo Luo, Cong Yao单位 | 旷视;中国矿业大学;罗切斯特大学[2].SCATTER: Selective Context Attentional Scene Text Recognizer作者 |Ron Litman, Or..原创 2020-09-07 23:40:25 · 1740 阅读 · 2 评论 -
自然场景文本检测Contournet 使用踩坑记录
1.Contournet地址https://github.com/wangyuxin87/ContourNet2.遇到问题解决记录a:target.resize报错解决办法:https://github.com/wangyuxin87/ContourNet/issues/4b:错误日志如下:File "/home/yang/Documents/model/textdect/ContourNet-master/maskrcnn_benchmark/data/datasets/evalua.原创 2020-08-12 00:24:40 · 613 阅读 · 10 评论 -
论文翻译之Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation
Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation摘要插入链接与图片导入摘要你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。场景文本检测在实时文本翻译、自动信息进入...原创 2019-07-09 23:03:52 · 2167 阅读 · 0 评论 -
文字检测评价标准
1.ICDAR2013文本检测算法的衡量方法参考:https://blog.csdn.net/weixin_35653315/article/details/71591596原创 2018-05-27 23:30:48 · 5667 阅读 · 0 评论 -
ASTER论文阅读
摘要场景文本识别的一个具有挑战性的方面是处理带有扭曲或不规则布局的文本。特别地,透视文本和弯曲文本在自然场景中是常见的并且难以识别。在这项工作中,我们介绍了ASTER,一种端到端的神经网络模型,包括校正网络和识别网络。校正网络自适应地将输入图像转换为新图像,对其中的文本进行纠正。它由灵活的薄板样条转换(Thin-Plate Spline transformation)提供动力,可处理各种文本不规则,并且无需人工注释即可进行训练。识别网络是注意力序列到序列模型( attentional sequence-t原创 2021-10-25 08:31:36 · 314 阅读 · 0 评论 -
文本识别CTC算法
解决的问题CTC Loss要解决的问题就是当label长度小于模型输出长度时,如何做损失函数。一般做分类时,已有的softmax loss都是模型输出长度和label长度相同且严格对齐,而语音识别或者手写体识别中,无法预知一句话或者一张图应该输出多长的文字,这时做法有两种:seq2seq+attention机制,不限制输出长度,在最后加一个结束符号,让模型自动和gt label对齐;另一种是给定一个模型输出的最大长度,但是这些输出并没有对齐的label怎么办呢,这时就需要CTC loss了。原创 2021-10-13 09:10:11 · 1367 阅读 · 0 评论 -
论文阅读之Primitive Representation Learning for Scene Text Recognition
摘要对于多方向文字,传统的CNN-RNN-CTC方法并没有研究稳定有效的特征表示。本文提出了一种原始的特征学习方法来获取场景文本图像的内在表示。将特征图建模为无向图的节点,用池化聚合和加权聚合来学习原始表示,并通过图网络转化为高级视觉文本表示。用视觉文本表示来构造PREN。而且把视觉文本表示融合进一个基于2D注意力机制的编解码网络,该网络缓解了注意力机制的错位问题。在中英文场景上获得了不错的效果。...原创 2021-09-10 21:34:17 · 359 阅读 · 0 评论