alibabazhouyu-CSDN博客

原创 A Simple Semi-Supervised Learning Framework for Object Detection

热门的半监督学习方法大部分是基于一致性自训练的。半监督的核心思想是先为无标注的数据生成人工标签，然后训练模型预测这些人工标签。预测的人工标签可以是one-hot也可以是预测分布(soft)。SSL成功的另一个支柱是数据增强的进步。数据增强提高了深度神经网络的鲁棒性。并且已经证明对于基于一致性的自训练特别有效。复杂的数据增强策略，例如RandAugment 和CTAugment ，对SSL的图像分类非常有效。用于对象检测的SSL仅有的研究大多依赖于额外的上下文，例如对象的类别相似性。本来利用从图像分类中学到的

2020-12-10 02:47:17 2380

原创一些库的使用

1.rect = cv2.minAreaRect(bboxes[j]) # (points)bbox = cv2.boxPoints(rect)bbox = bbox.astype('int32')bbox = Polygon(bbox).convex_hullprint(list(bbox.exterior.coords)) #输出Polygon对象的坐标

2020-12-03 14:10:41 234

原创 python3切换到python2

查看Python默认版本终端输入：python --version我需要修改为Python2.7.12，步骤如下1）echo alias python=python2 >> ~/.bashrc 2）source ~/.bashrcpython --version此时输出python2.7.12再安装pip2wget https://pypi.python.org/packages/11/b6/abcb525026a4be042b486df43905d68...

2020-07-26 19:24:49 2738

原创 ctc安装

2735的镜像git clone https://github.com/SeanNaren/warp-ctc.gitcd warp-ctcgit checkout ac045b6072b9bc3454fb9f9f17674f0d59373789mkdir build; cd buildcmake ..makecd ../pytorch_binding/python setup.py install报错则修改如下：1. binding.cpp文件的92行修改成如下：int prob

2020-06-01 13:28:07 699

原创 CVPR2020文章核心思想总结

PolarMask: Single Shot Instance Segmentation with Polar Representation 核心思想：通过实例中心区域（质心周围的9-16个像素为正样本，而不仅仅是质心被当作正样本，这能增加正样本的数量，而且有时候质心可能并不是最佳点，增加一些点能增大选择到最佳点的概率）分类和在极坐标中密集地回归距离来预测实例轮廓。为此，提出了两种有效的方法（极化中心和极化IoU loss）来分别处理高质量中心样本的采样和优化密集距离回归，这可以显着提高性能并简化训练过程

2020-05-30 14:49:55 465

原创 TextCohesion: Detecting Text for Arbitrary Shapes

TextCohesion: Detecting Text for Arbitrary Shapes 浙...

2019-09-18 21:46:12 601

原创 warp-ctc绑定pytorch出错解决办法

This should get you covered (tested with Ubuntu 16.04):sudo apt-get update -y# install python3 and dev headerssudo apt-get install -y python3 python3-dev# pip is greatsudo apt-get install -y ...

2019-07-01 01:09:22 1032

原创 ctc和attention-based解码器的比较

Attention是一种权重向量或矩阵，其往往用在Encoder-Decoder架构中，其权重越大，表示的context对输出越重要。计算方式有很多亚种，但是核心都是通过神经网络学习而得到对应的权重。Attention模型虽然好，但是还是有自身的问题[4][5]，问题如下：1）适合短语识别，对长句子识别比较差2）noisy data的时候训练不稳定因此比较好的方法是使得Attent...

2019-06-28 09:59:37 5160

原创感受野的计算方式

2019-05-10 15:56:59 424

原创 Deep TextSpotter: An End-to-End Trainable Scene Text Localization and Recognition Framework

效果：１、在ICDAR 2013 and ICDAR 2015的端到端识别中达到当时最好的精度２、速度很快，检测＋识别可达到１０FPS.本文特点：是端到端的框架，同时检测和识别文本贡献：１、在单个框架中训练文本检测和文本识别，并证明了它的效果优于把两个最优的文本检测网络和文本识别网络相结合的方法２、证明了最先进的目标检测方法可以用于扩展到文本检测和文本识别中３、在I...

2019-04-28 01:24:11 594

原创问题解决

１、python2 要输出中文的时候出现编码错误UnicodeEncodeError: 'ascii' codec can't encode characters in position 4-33: ordinal not in range(128，则export PYTHONIOENCODING=utf8。２、明明ＧＰＵ足够，却还报错说显存不足：RuntimeError: CUDA ou...

2019-04-26 02:13:37 494

转载 Seq2Seq Attention模型

seq2seq 是一个Encoder–Decoder 结构的网络，它的输入是一个序列，输出也是一个序列， Encoder 中将一个可变长度的信号序列变为固定长度的向量表达，Decoder 将这个固定长度的向量变成可变长度的目标的信号序列。（seq2seq实现的方法有很多，比如MLP，CNN，RNN等）编码器：可变长度的输入序列------------->固定长度的向量解码器：固定...

2019-04-23 09:54:24 1254

原创 Synthetic MLT Data

([Arabic](http://ptak.felk.cvut.cz/public_datasets/SyntText/Arabic.zip),[Bangla](http://ptak.felk.cvut.cz/public_datasets/SyntText/Bangla.zip),[Chinese](http://ptak.felk.cvut.cz/public_datasets/Sy...

2019-04-19 15:10:09 523

原创 PPTs

1、2019.4.9 Shape Robust Text Detection with Progressive Scale Expansion Network（即PSENet）单位： DeepInsight@PCALab, Nanjing University of Science and Technology National Key Lab for Nove...

2019-04-09 16:52:12 1243

原创安装mxnet+warp-ctc

在容器下：apt-get install -y libopenblas-devapt-get install -y libopencv-dev从 https://archive.apache.org/dist/incubator/mxnet/1.0.0/apache-mxnet-src-1.0.0-incubating.tar.gz 下载1.0.0mxnet，解压，cd mxnet...

2019-04-05 23:03:05 760

原创知识获取

1、空洞卷积Dilated /Atrous convolution: 空洞卷积诞生于图像分割领域，图像输入到网络中经过CNNCNN提取特征，再经过poolingpooling降低图像尺度的同时增大感受野。由于图像分割是pixel−wisepixel−wise预测输出，所以还需要通过upsampling将变小的图像恢复到原始大小。图像分割FCNFCN有两个关键步骤：池化操作增大感受野，upsamp...

2019-04-05 17:20:29 1312

原创 python3输出中文乱码的问题

大部分是由于print（）导致的解决办法：在运行的Python文件中添加如下代码即可import ioimport syssys.stdout = io.TextIOWrapper(sys.stdout.detach(),encoding='utf-8')

2019-03-02 00:53:06 3259

原创 Geometry-Aware Scene Text Detection with Instance Transformation Network

很多场景文本检测方法是基于一般的目标检测框架。MSRA-D500的训练集太少了，不能很好地训练一个深度模型。通常的做法是把MSRA-TD500的训练集和其他数据混合一起训练，如HUST-TR400的训练集和测试集。检测结果的得分超过0.9的视为最终结果？本文是一个one-stage的方法 ...

2019-02-15 21:29:10 515

原创 Feature Enhancement Network: A Refined Scene Text Detector

问题1、怎么进行特征增强？。。。。高维度的语义信息利于目标分类，而低维度的语义信息利于对目标进行精确定位？用3x3的滑窗做region proposal以及在高维度用单一尺度做检测微调是不够的。FEN：任务特定，低维和高维语义特征融合，从而提高文本检测性能。adaptively weighted position-sensitive RoI pooling layer：进一步提高检...

2019-02-14 00:44:26 338

原创 PixelLink: Detecting Scene Text via Instance Segmentation

浙江大学&阿里巴巴研究院&中科院场景文本检测目前最好的场景文本检测算法中大部分是依赖于文本/非文本分类和位置回归，而且回归在获取边框中扮演关键的角色，但是并不是必不可少的，因为文本/非文本的预测也可以看作是一种包含所有位置信息的语义分割，但是文本实例距离太近，使用语义分割不太容易分隔开，所以使用实例分割。优点...

2019-01-22 22:36:23 651

原创 Deep TextSpotter: An End-to-End Trainable Scene Text Localization and Recognition Framework

Deep TextSpotter: An End-to-End Trainable Scene Text Localization and Recognition Framework 结果：state-of-the-art accuracy in the end-to-end text recognition on two sta...

2018-11-15 21:41:34 909

原创 An end-to-end TextSpotter with Explicit Alignment and Attention

An end-to-end TextSpotter with Explicit Alignment and Attention Tong He;, Zhi Tian;, Weilin Huang, Chunhua Shen ...

2018-09-28 11:26:48 694

原创 2017-2018高水平的文本检测识别文章

2017-2018论文更新识别 XiangBai——【PAMI2018】ASTER_An Attentional Scene Text Recognizer with Flexible Rectification Zhanzhan Cheng——【CVPR2018】AON_Towards Arbitrarily-Oriented Text Recognition Zh...

2018-09-24 12:33:23 3820

原创 ASTER: An Attentional Scene Text Recognizer with Flexible Rectification

ASTER: An Attentional Scene Text Recognizer with Flexible Rectification Baoguang Shi, Mingkun Yang, Xinggang Wang, Pengyuan Lyu, Cong ...

2018-09-21 01:07:46 4697

原创 Attention-based Extraction of Structured Information from Street View Imagery

Attention-based Extraction of Structured Information from Street View Imagery Unive...

2018-08-28 16:44:48 1090

原创 pytorch问题解决

finetune时，alexnet出现输入与目标不一致RuntimeError: invalid argument 2: size '[64 x 9216]' is invalid for input of with，是由于/jupyter/jupyter_env/local/lib/python2.7/site-packages/torchvision/models/alexnet.pyc的...

2018-08-26 04:54:52 629

原创文本识别-----AdaDNNs: Adaptive Ensemble of Deep Neural Networks for Scene Text Recognition

AdaDNNs: Adaptive Ensemble of Deep Neural Networks for Scene Text RecognitionScene text (cropped word) recognition methods can be generally grouped into segmentation-...

2018-08-18 22:20:46 529

原创文本识别--Focusing Attention: Towards Accurate Text Recognition in Natural Images

Focusing Attention: Towards Accurate Text Recognition in Natural Images 现有的最好的文本识别技术是基于注意力的编码器 - 解码器框架，其以纯数据驱动的方式学习输入图像和输出序列之间的映射。基于注意力机制的方法在复杂背景和低质量的图像上...

2018-08-15 12:26:53 2018

原创快手训练

1、ImportError: No module named cython_bbox解决办法是：在faster rcnn里面的cython_bbox.so放到需要调用的地方（faster rcnn里面的lib文件也要拷过去，然后make吗？不确定）2、AttributeError: 'module' object has no attribute 'text_format'解决办法是：...

2018-07-25 02:08:56 667

转载 channel和卷积的过程

在深度学习的算法学习中，都会提到 channels 这个概念。在一般的深度学习框架的 conv2d 中，如 tensorflow 、mxnet ，channels 都是必填的一个参数。channels 该如何理解？先看一看不同框架中的解释文档。首先，是 tensorflow 中给出的，对于输入样本中 channels 的含义。一般的RGB图片，channels 数量是 3 （红、绿、蓝）；...

2018-07-22 01:03:22 6513

转载 rpn

它的示意图如下：这里借用了http://blog.csdn.net/zy1034092330/article/details/62044941里的图。上面Conv layers包含了五层卷积层。接下来，对于第五层卷积层，进行了3*3的卷积操作，输出了256个通道，当然大小与卷积前的大小相同。然后开始分别接入了cls层与regression层。对于cls层，使用1*1的卷积操作输出了18（9*2...

2018-07-01 16:46:09 1560

原创 fast rcnn论文结合代码

Fast R-CNN训练非常深的VGG16网络比R-CNN快9倍，测试时间快213倍，并在PASCAL VOC2012上得到更高的平均精度mAP。与SPPnet相比，fast R-CNN训练VGG16网络比他快3倍，测试速度快10倍，并且更准确。由于检测比分类更复杂，所以也需要更复杂的方法，当前的检测方法采用多级流水线（候选区域的生成和检测是分开成两个模块的）的方式来训练模型，既慢且精度不高。本文...

2018-06-20 22:00:13 269

原创 SPPNet论文详解

<Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition >Kaiming He 当前深度卷积神经网络（CNNs）都需要输入的图像尺寸固定（比如224×224）。这种人为的需要导致面对任意尺寸和比例的图像或子图像时降低识别的精度(因为要经过crop/warp)。本文给网...

2018-04-24 01:47:35 20518 1

原创 GoogLeNet论文详解

<Going Deeper with Convolutions >Christian Szegedy1, Wei Liu2, Yangqing Jia摘要本文提出了一个代号为Inception的深度卷积神经网络架构，这种架构的主要特点是提高了网络内部计算资源的利用率。通过精心设计，增加了网络的深度和宽度，同时保持计算预算不变。 GoogLeNet是Inception的一...

2018-04-21 16:59:28 6222

转载 ResNet翻译

Deep Residual Learning for Image RecognitionAbstractDeeper neural networks are more difficult to train. We present a residual learning framework to ease the training of networks that are substantially...

2018-04-18 12:41:37 2483 1

转载 VGGNet翻译

Very Deep Convolutional Networks for Large-Scale Image RecognitionABSTRACTIn this work we investigate the effect of the convolutional network depth on its accuracy in the large-scale image recognition...

2018-04-18 12:40:46 3447

转载 AlexNet翻译

ImageNet Classification with Deep Convolutional Neural NetworksAbstractWe trained a large, deep convolutional neural network to classify the 1.2 million high-resolution images in the ImageNet LSVRC-20...

2018-04-18 12:39:44 1465

转载 R-FCN翻译

R-FCN: Object Detection via Region-based Fully Convolutional NetworksAbstractWe present region-based, fully convolutional networks for accurate and efficient object detection. In contrast to previous ...

2018-04-18 12:38:01 555

转载 Faster R-CNN翻译

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal NetworksAbstractState-of-the-art object detection networks depend on region proposal algorithms to hypothesize object locations. A...

2018-04-18 12:37:00 3631

转载 Deformable Convolutional Networks翻译

Deformable Convolutional NetworksAbstractConvolutional neural networks (CNNs) are inherently limited to model geometric transformations due to the fixed geometric structures in their building modules....

2018-04-18 12:35:44 1290

空空如也

空空如也