陶将的博客

在通向算法工程师的道路上努力前行的小斗士

卷积神经网络常见架构AlexNet、ZFNet、VGGNet、GoogleNet和ResNet模型

卷积神经网络在图像识别方面应用广泛,在实际应用在中,识别的准确率不仅仅与数据量有关,还与模型的架构有很大的关联。从首个成功应用于数字识别的卷积神经网络LeNet,到卷积神经网络崛起点AlexNet,以及陆陆续续的ZF Net, VGG Net,Inception系列和ResNet,这些架构在网络深...

2018-06-22 16:19:10

阅读数 18272

评论数 6

实习面试之升级打怪经历

自从我导师同意我去实习后我就开始逢人发简历的生涯,没那么夸张,说笑了,说笑了。 前言 下面三个公司,是我的前三个面试,每次面试之后,就对每次面试经历进行记录总结,吸取不足,后续的一些其他公司,我将上面的学到的经验运用到面试中,面试经历就很愉快了。在脉脉上看到一句,“技术是理科,面试是文科,去面...

2019-05-12 10:20:18

阅读数 122

评论数 1

目标检测之YOLO, YOLOv2, YOLOv3详解

刚刚接触目标检测时,对CRNN系列,YOLO和SDD这几大算法有一个粗略的理解,目标检测算法RCNN, Fast RCNN, Faster RCNN, YOLO和SSD,而目前又因为想要用YOLO算法做文字检测,所以在此对YOLO系列做一个详细的讲述。 YOLO 论文:You Only Loo...

2019-04-05 21:32:43

阅读数 291

评论数 0

场景文字检测(二)--EAST

论文:EAST:An Efficient and Accurate Scene Text Detector EAST,高效且准确的场景文字检测算法,不仅仅pipelines简练,而且还能直接在图像中检测任意方向和四边形文本行和文字。集中精力在网络架构和损失函数的设计也是EAST过程简练的原因之一...

2019-04-05 11:41:19

阅读数 194

评论数 0

场景文字检测(一)--CTPN(Connectionist Text Proposal Network)

论文:Detecting Text in Nature Image with Connectionist Text Proposal Network 在通用目标检测中,每一个物体都有一个定义良好的封闭边界,但是对于文字检测来说,这种明晰的封闭边界却是不可能的,因为一行文本和单词都是有若干个字符组...

2019-04-03 20:07:57

阅读数 220

评论数 0

DenseNet

thesis:Densely Connected Convolutional Networks slides:http://www.gaohuang.net/papers/DenseNet-CVPR-Slides.pdf CNN的发展势头迅猛,从最初的LeNet5网络,到AlexNet、VGG...

2019-03-25 11:08:55

阅读数 139

评论数 0

one class classification

在科研生涯中,导师要求做一个区分器,奈何只能得到一个类别的数据集,百思不得其解,多方查找,了解one class classification,随在此对此类问题进行详细介绍。 分类问题,例如二分类和多分类,由于多分类问题都可以解体成多个二分类问题,所以,一般来说,二分类问题被看做是基本的分类问题...

2019-03-02 11:21:04

阅读数 279

评论数 0

TFRecords文件实现不定长图片和标签的存储和读取感悟(2)(更新版)

将不定长图片和标签生成TFRecords文件进行保存,前期是使用PIL模块进行图片的读取,详情见TFRecords文件实现不定长图片和标签的存储和读取感悟(1)(附完整代码),由于每次batch时要求图片的尺寸大小一致,所以就需要定义一个最大宽度(所有图片高度一定)max_width,需要对图片进...

2019-02-25 17:08:20

阅读数 92

评论数 0

python cv2.imread 读取中文路径的图片返回为None的问题

新年第一天上班,趁程序运行的空隙,记录下遇到的bug及解决方法。 使用cv2读取图片时,输出图片形状大小时出现报错“ 'NoneType' object has no attribute shape”,后来排查发现读取图片的返回值image为None, 这就说明图片根本就没有被读取。下面图片是问...

2019-02-11 16:41:26

阅读数 1075

评论数 0

机器学习:优化算法Optimizer比较和总结(SGD/BGD/MBGD/Momentum/Adadelta/Adam/RMSprop)

在花书深度学习第8章Optimization for Training Deep Models中对机器学习中的优化器有如下定义: finding the parameters θ\thetaθ of a neural network that significantly reduce a c...

2019-01-21 15:05:43

阅读数 385

评论数 0

cipherGAN:利用GAN破译密码算法

2016年google推出一篇文章,利用生成对抗网络保护通信(Learning to Protect Communications with Adversarial Neural Cryptography),设计了基于生成对抗网络GAN的私钥加密算法和公钥加密算法,2018年,Aidan N. G...

2019-01-11 15:32:44

阅读数 212

评论数 0

RCNN+CTC(CNN+RNN+CTC)复现细节记录

由于比赛的原因,接触了图像文字识别,即是对输入的图片,识别其中的文字。然而对于现实世界中随机的一张图片,首先需要文字检测,即检测出图片中文字的所在文字,然后再进行文字识别,由于比赛给出的数据不用考虑文字检测部分,所以此篇文章主要介绍文字识别算法CRNN。 CRNN算法思想很简单,架构模型为CNN...

2019-01-03 10:43:45

阅读数 632

评论数 3

TFRecords文件实现不定长图片和标签的存储和读取感悟(1)(附完整代码)

最近一段时间接触到用tfrecord储存数据和读取,期间踩了数之不尽的坑,在消bug的路上艰难行走,所以在这里记录下我所遇见过的各种坑,望共勉。  TFRecord是谷歌推荐的一种二进制文件格式,理论上它可以保存任何格式的信息。使用tfrecord时,实际上是先读取原生数据,然后转换成tfrec...

2018-12-27 11:04:57

阅读数 283

评论数 0

SVT(Street View Text)数据集的处理

Street View Text数据集图像来源自于Google Street View,数据集种的图像包含好质量和低质量的图像,通常低质量图片居多。下载的数据集种包含两个文件,train.xml和test.xml文件。格式如下: <?xml version=&qu...

2018-12-21 22:19:22

阅读数 362

评论数 0

图像文字识别初探(四)-- single-shot text detector

图像文字识别初探(一)-CRNN(Convolution Recurrent Neural Network)和DTRN(Deep-text Recurrent Network) 图像文字识别初探(二)-FAN(Focusing Attention Network) 图像文字识别初探(三)-Ma...

2018-12-12 16:03:48

阅读数 561

评论数 0

图像文字识别初探(三)-Mask TextSpotter

图像文字识别初探(一)-CRNN(Convolution Recurrent Neural Network)和DTRN(Deep-text Recurrent Network) 图像文字识别初探(二)-FAN(Focusing Attention Network) 图像文字识别初探(三)-Ma...

2018-12-11 15:49:36

阅读数 482

评论数 0

图像文字识别初探(二)-FAN(Focusing Attention Network)

图像文字识别初探(一)-CRNN(Convolution Recurrent Neural Network)和DTRN(Deep-text Recurrent Network) 图像文字识别初探(二)-FAN(Focusing Attention Network) 图像文字识别初探(三)-Ma...

2018-12-07 19:10:08

阅读数 642

评论数 2

图像文字识别初探(一)-CRNN(Convolution Recurrent Neural Network)和DTRN(Deep-text Recurrent Network)

最近参加了一个图像文字识别比赛,之前没有接触过这个方向,所以经过多方查找,目前选定五篇论文,希望能从这五篇论文中找出能解决的方法。 图像文字识别初探(一)-CRNN(Convolution Recurrent Neural Network)和DTRN(Deep-text Recurrent Ne...

2018-12-07 17:30:09

阅读数 726

评论数 0

GAN及其变体WGAN, improved WGAN, DualGAN, cycleGAN(二)

上篇文章见:GAN及其变体C_GAN,infoGAN,AC_GAN,DC_GAN(一) WGAN(Wasserstein GAN) 论文: Towards Principled Methods for Training Generative Adversarial Networks Was...

2018-11-28 15:18:15

阅读数 678

评论数 0

目标检测算法RCNN,Fast RCNN,Faster RCNN,YOLO和SSD

  object detection,目标检测,就是在给定图片中精确找到物体所在位置,并标注出物体的类别。所以,object detection 要解决的问题就是物体在哪里以及是什么的整个流程问题。目前最常听到的目标检测算法就是RCNN系列(RCNN-->Fast RCNN...

2018-11-25 10:14:45

阅读数 365

评论数 1

提示
确定要删除当前文章?
取消 删除
关闭
关闭