2018年10月_WX Chen

原创文字识别 CRNN-白翔

pytorch代码（只针对英文）https://blog.csdn.net/u013102349/article/details/79515147中文翻译架构包括三部分：1) 卷积层，从输入图像中提取特征序列；2) 循环层，预测每一帧的标签分布（每帧预测）；3) 转录层，将每一帧的预测变为最终的标签序列。CNN：特征序列的每一个特征向量在特征图上按列从左到右生成。这意味着第i个特征向...

2018-10-10 11:00:33 2577

原创文字定位 CTPN-黄伟林

论文翻译汇总https://github.com/SnailTyan/deep-learning-papers-translation2016年 ECCV业界现在物体识别领域用的最多的是proposal region方法，即通过筛选出候选区域，然后对候选区域进行二分类(object/ no object), 同时还要对bound box进行回归，这是一般的物体识别所用的方法。 CTPN...

2018-10-10 10:59:57 993

SSD（Single Shot MultiBox Detector）（1）two-stage方法，如R-CNN系算法，其主要思路是先通过启发式方法（selective search）或者CNN网络（RPN)产生一系列稀疏的候选框，然后对这些候选框进行分类与回归，two-stage方法的优势是准确度高；（2）one-stage方法，如Yolo和SSD，其主要思路是均匀地在图片的不同位置进行密集抽...

2018-10-10 10:58:48 1218

原创 YOLO

onfidence scores反映了模型对于这个栅格的预测：该栅格是否含有物体，以及这个box的坐标预测的有多准。公式定义如下：如果这个栅格中不存在一个 object，则confidence score应该为0；否则的话，confidence score则为 predicted bounding box与 ground truth box之间的 IOU每一个栅格还要预测C个 con...

2018-10-10 10:57:23 169

原创 RCNN、fast-RCNN、faster-RCNN

rbg主页有代码http://www.rossgirshick.info/Fast RCNN（2015年）基础：RCNN简单来说，RCNN使用以下四步实现目标检测： a. 在图像中确定约1000-2000个候选框 b. 对于每个候选框内图像块，使用深度网络提取特征 c. 对候选框中提取出的特征，使用分类器判别是否属于一个特定类 d. 对于属于某一特征的候选框，用回归器进一步调整其...

2018-10-10 10:56:33 207

原创激活函数损失函数优化器

均方差损失函数+Sigmoid的反向传播算法中，每一层向前递推都要乘以σ′(z)（激活函数的导数）,得到梯度变化值。Sigmoid的这个曲线意味着在大多数时候，我们的梯度变化值很小，导致我们的W,b更新到极值的速度较慢，也就是我们的算法收敛速度较慢。使用交叉熵损失函数，得到的梯度表达式没有了σ′(z)，梯度为预测值和真实值的差距，这样求得的Wl,bl的梯度也不包含σ′(z)，因此避免了反向传播收...

2018-10-10 09:29:37 1448

原创梯度消失梯度爆炸

梯度裁剪损失函数的值沿着梯度的方向呈下降趋势，然而，如果梯度爆炸，梯度（偏导数）很大，就会出现函数值跳来跳去，收敛不到最值的情况。当然出现这种情况，其中一种解决方法是，将学习率α设小一点，如0.0001。这里介绍梯度裁剪（Gradient Clipping）的方法，对梯度进行裁剪，论文提出对梯度的L2范数进行裁剪，也就是所有参数偏导数的平方和再开方。当你训练模型出现Loss值出现跳动，一直...

2018-10-10 09:28:31 226

原创深度调参技巧

调参：一般在小数据集上合适的参数，在大数据集上效果也不会太差。learning rate: 1 0.1 0.01 0.001, 一般从1开始尝试。学习率一般要随着训练进行衰减。衰减系数一般是0.5。对RNN来说，有个经验，如果RNN要处理的序列比较长，或者RNN层数比较多，那么learning rate一般小一些比较好，否则有可能出现结果不收敛，甚至Nan等问题。每层结点数： 16 32 ...

2018-10-10 09:27:38 1114

原创图像分类 AlexNet GoogleNet VGG ResNet学习

Lenet，1986年Alexnet，2012年GoogleNet，2014年VGG，2014年Deep Residual Learning，2015年 AlexNet更强调了全连接层的作用，它用了两个全连接层，那么为了减少权重的数目，才引出了dropout这个概念输入尺寸：227*227像素（因为竞赛的需要）卷积层：好多（因为输入尺寸的需要）降采样层：好多（因为输入尺寸的需...

2018-10-10 09:26:54 494

原创训练集验证集测试集

训练集loss < 验证集loss < 测试集loss一个好的网络，二者的差距应该是很低的。但一般情况下因为网络不可避免地存在一定程度上的过拟合，所以肯定是train_loss低于test_lost，但如果低太多，就得考虑是过拟合的问题还是因为样本的特征空间不统一的问题。http://www.mooc.ai/bbs/question/1426/show验证集基本是在每个epoc...

2018-10-09 16:50:48 1352

原创网络收敛问题汇总

loss太大：把lr改小loss的下降速度非常慢：batchsize太小训练集的损失已经下降到比较满意的值，但是（！！！！）验证集上的损失几乎没有下降，或者是说相比与训练集的损失值不在一个数量级上！！！最本质的原因：网络模型在小数据库上出现过拟合。训练数据太少精度不高或者为0的问题结果来自 <http://www.cnblogs.com/hust-yingjie/p...

2018-10-09 16:50:15 4795

原创 batch size设置技巧

显存占用不是和batch size简单成正比增大batch size能减缓梯度震荡，需要更少的迭代优化次数，收敛的更快，但是每次迭代耗时更长。https://zhuanlan.zhihu.com/p/31558973要想收敛到同一个最优点，使用整个样本集时，虽然迭代次数少，但是每次迭代的时间长，耗费的总时间是大于使用少量样本多次迭代的情况的。实际上，工程上在使用GPU训练时，跑一个样本...

2018-10-09 16:08:51 17491 2

原创 dropout层

tf.nn.dropout是TensorFlow里面为了防止或减轻过拟合而使用的函数，它一般用在全连接层。tf.nn.dropout(x, keep_prob, noise_shape=None, seed=None, name=None) 上面方法中常用的是前两个参数：第一个参数x：指输入第二个参数keep_prob: 设置神经元被选中的概率,在初始化时keep_prob是一个占位符,...

2018-10-09 16:08:17 2768

原创 TensorFlow学习

桌面云上tensorflow1.2，linux服务器上tensorflow1.4说明文档https://www.tensorflow.org/get_started/?hl=zh-cnwindows下安装pip install tensorflow 来自 <https://blog.csdn.net/zhuzhishi2042/article/details/72888312&...

2018-10-09 16:07:03 212

原创 PyTorch学习

版本 pytorch0.4/pytorch0.41小型CNN教程https://www.jianshu.com/p/e4c7b3eb8f3d中文文档https://pytorch-cn.readthedocs.io/zh/latest/package_references/torch-nn/《深度学习框架PyTorch：入门与实践》的对应代码来自 <https://git...

2018-10-09 14:40:08 507

原创 Embedding层

为什么要使用嵌入层 Embedding呢? 主要有这两大原因:1、使用One-hot 方法编码的向量会很高维也很稀疏。2、训练神经网络的过程中，每个嵌入的向量都会得到更新。“deep learning is very deep”通过索引对该句子进行编码1 2 3 4 1创建嵌入矩阵这样，我们就可以使用嵌入矩阵来而不是庞大的one-hot编码向量来保持每个向量更小。简而言之，嵌...

2018-10-09 14:34:27 1422

原创 seq2seq学习

根据输出和输入序列不同数量rnn可以有多种不同的结构：one to one 结构，仅仅只是简单的给一个输入得到一个输出，此处并未体现序列的特征，例如图像分类场景。one to many 结构，给一个输入得到一系列输出，这种结构可用于生产图片描述的场景。many to one 结构，给一系列输入得到一个输出，这种结构可用于文本情感分析，对一系列的文本输入进行分类，看是消极还是积极情感。man...

2018-10-09 11:50:27 366

原创 RNN、LSTM、GRU学习补充

隐藏层神经元个数的解释每一个小黄框代表一个前馈网络层，对，就是经典的神经网络的结构，num_units就是这个层的隐藏神经元个数(例如128，256)https://www.zhihu.com/question/64470274 双向 LSTM我今天不舒服，我打算__一天。只根据‘不舒服‘，可能推出我打算‘去医院‘，‘睡觉‘，‘请假‘等等，但如果加上后面的‘一天‘，能选择的范围就变...

2018-10-09 11:44:17 414

原创 CNN学习的补充

卷积神经网络的基本架构由3部分组成：卷积，池化和全连接。卷积是用一个滑动窗口从输入图像中提取特征。池化操作为了降低维度。池化操作的输出图像的大小：（输入图像宽度 - 内核宽度 + 2*padding） / 步长 + 1https://blog.csdn.net/cicibabe/article/details/73075222 pooling的结果是使得特征减少，参数减少，但po...

2018-10-08 17:15:33 209

WX_Chen的博客