- 博客(19)
- 问答 (1)
- 收藏
- 关注
原创 文字识别 CRNN-白翔
pytorch代码(只针对英文)https://blog.csdn.net/u013102349/article/details/79515147中文翻译架构包括三部分:1) 卷积层,从输入图像中提取特征序列;2) 循环层,预测每一帧的标签分布(每帧预测);3) 转录层,将每一帧的预测变为最终的标签序列。CNN:特征序列的每一个特征向量在特征图上按列从左到右生成。这意味着第i个特征向...
2018-10-10 11:00:33 2577
原创 文字定位 CTPN-黄伟林
论文翻译汇总https://github.com/SnailTyan/deep-learning-papers-translation2016年 ECCV业界现在物体识别领域用的最多的是proposal region方法,即通过筛选出候选区域,然后对候选区域进行二分类(object/ no object), 同时还要对bound box进行回归,这是一般的物体识别所用的方法。 CTPN...
2018-10-10 10:59:57 993
原创 SSD mask-RCNN
SSD(Single Shot MultiBox Detector)(1)two-stage方法,如R-CNN系算法,其主要思路是先通过启发式方法(selective search)或者CNN网络(RPN)产生一系列稀疏的候选框,然后对这些候选框进行分类与回归,two-stage方法的优势是准确度高;(2)one-stage方法,如Yolo和SSD,其主要思路是均匀地在图片的不同位置进行密集抽...
2018-10-10 10:58:48 1218
原创 YOLO
onfidence scores反映了模型对于这个栅格的预测:该栅格是否含有物体,以及这个box的坐标预测的有多准。 公式定义如下: 如果这个栅格中不存在一个 object,则confidence score应该为0;否则的话,confidence score则为 predicted bounding box与 ground truth box之间的 IOU每一个栅格还要预测C个 con...
2018-10-10 10:57:23 169
原创 RCNN、fast-RCNN、faster-RCNN
rbg主页有代码http://www.rossgirshick.info/Fast RCNN(2015年)基础:RCNN简单来说,RCNN使用以下四步实现目标检测: a. 在图像中确定约1000-2000个候选框 b. 对于每个候选框内图像块,使用深度网络提取特征 c. 对候选框中提取出的特征,使用分类器判别是否属于一个特定类 d. 对于属于某一特征的候选框,用回归器进一步调整其...
2018-10-10 10:56:33 207
原创 激活函数 损失函数 优化器
均方差损失函数+Sigmoid的反向传播算法中,每一层向前递推都要乘以σ′(z)(激活函数的导数),得到梯度变化值。Sigmoid的这个曲线意味着在大多数时候,我们的梯度变化值很小,导致我们的W,b更新到极值的速度较慢,也就是我们的算法收敛速度较慢。使用交叉熵损失函数,得到的梯度表达式没有了σ′(z),梯度为预测值和真实值的差距,这样求得的Wl,bl的梯度也不包含σ′(z),因此避免了反向传播收...
2018-10-10 09:29:37 1448
原创 梯度消失 梯度爆炸
梯度裁剪损失函数的值沿着梯度的方向呈下降趋势,然而,如果梯度爆炸,梯度(偏导数)很大,就会出现函数值跳来跳去,收敛不到最值的情况。当然出现这种情况,其中一种解决方法是,将学习率α设小一点,如0.0001。这里介绍梯度裁剪(Gradient Clipping)的方法,对梯度进行裁剪,论文提出对梯度的L2范数进行裁剪,也就是所有参数偏导数的平方和再开方。当你训练模型出现Loss值出现跳动,一直...
2018-10-10 09:28:31 226
原创 深度调参技巧
调参:一般在小数据集上合适的参数,在大数据集上效果也不会太差。learning rate: 1 0.1 0.01 0.001, 一般从1开始尝试。学习率一般要随着训练进行衰减。衰减系数一般是0.5。对RNN来说,有个经验,如果RNN要处理的序列比较长,或者RNN层数比较多,那么learning rate一般小一些比较好,否则有可能出现结果不收敛,甚至Nan等问题。每层结点数: 16 32 ...
2018-10-10 09:27:38 1114
原创 图像分类 AlexNet GoogleNet VGG ResNet学习
Lenet,1986年Alexnet,2012年GoogleNet,2014年VGG,2014年Deep Residual Learning,2015年 AlexNet更强调了全连接层的作用,它用了两个全连接层,那么为了减少权重的数目,才引出了dropout这个概念输入尺寸:227*227像素(因为竞赛的需要)卷积层:好多(因为输入尺寸的需要)降采样层:好多(因为输入尺寸的需...
2018-10-10 09:26:54 494
原创 训练集 验证集 测试集
训练集loss < 验证集loss < 测试集loss一个好的网络,二者的差距应该是很低的。但一般情况下因为网络不可避免地存在一定程度上的过拟合,所以肯定是train_loss低于test_lost,但如果低太多,就得考虑是过拟合的问题还是因为样本的特征空间不统一的问题。http://www.mooc.ai/bbs/question/1426/show验证集基本是在每个epoc...
2018-10-09 16:50:48 1352
原创 网络收敛问题汇总
loss太大:把lr改小loss的下降速度非常慢:batchsize太小训练集的损失已经下降到比较满意的值,但是(!!!!)验证集上的损失几乎没有下降,或者是说相比与训练集的损失值不在一个数量级上!!!最本质的原因:网络模型在小数据库上出现过拟合。训练数据太少精度不高或者为0的问题结果来自 <http://www.cnblogs.com/hust-yingjie/p...
2018-10-09 16:50:15 4795
原创 batch size设置技巧
显存占用不是和batch size简单成正比增大batch size能减缓梯度震荡,需要更少的迭代优化次数,收敛的更快,但是每次迭代耗时更长。https://zhuanlan.zhihu.com/p/31558973要想收敛到同一个最优点,使用整个样本集时,虽然迭代次数少,但是每次迭代的时间长,耗费的总时间是大于使用少量样本多次迭代的情况的。实际上,工程上在使用GPU训练时,跑一个样本...
2018-10-09 16:08:51 17491 2
原创 dropout层
tf.nn.dropout是TensorFlow里面为了防止或减轻过拟合而使用的函数,它一般用在全连接层。tf.nn.dropout(x, keep_prob, noise_shape=None, seed=None, name=None) 上面方法中常用的是前两个参数:第一个参数x:指输入第二个参数keep_prob: 设置神经元被选中的概率,在初始化时keep_prob是一个占位符,...
2018-10-09 16:08:17 2768
原创 TensorFlow学习
桌面云上tensorflow1.2,linux服务器上tensorflow1.4说明文档https://www.tensorflow.org/get_started/?hl=zh-cnwindows下安装pip install tensorflow 来自 <https://blog.csdn.net/zhuzhishi2042/article/details/72888312&...
2018-10-09 16:07:03 212
原创 PyTorch学习
版本 pytorch0.4/pytorch0.41小型CNN教程https://www.jianshu.com/p/e4c7b3eb8f3d中文文档https://pytorch-cn.readthedocs.io/zh/latest/package_references/torch-nn/《深度学习框架PyTorch:入门与实践》的对应代码来自 <https://git...
2018-10-09 14:40:08 507
原创 Embedding层
为什么要使用嵌入层 Embedding呢? 主要有这两大原因:1、使用One-hot 方法编码的向量会很高维也很稀疏。2、训练神经网络的过程中,每个嵌入的向量都会得到更新。“deep learning is very deep”通过索引对该句子进行编码1 2 3 4 1创建嵌入矩阵这样,我们就可以使用嵌入矩阵来而不是庞大的one-hot编码向量来保持每个向量更小。简而言之,嵌...
2018-10-09 14:34:27 1422
原创 seq2seq学习
根据输出和输入序列不同数量rnn可以有多种不同的结构:one to one 结构,仅仅只是简单的给一个输入得到一个输出,此处并未体现序列的特征,例如图像分类场景。one to many 结构,给一个输入得到一系列输出,这种结构可用于生产图片描述的场景。many to one 结构,给一系列输入得到一个输出,这种结构可用于文本情感分析,对一系列的文本输入进行分类,看是消极还是积极情感。man...
2018-10-09 11:50:27 366
原创 RNN、LSTM、GRU学习补充
隐藏层神经元个数的解释每一个小黄框代表一个前馈网络层,对,就是经典的神经网络的结构,num_units就是这个层的隐藏神经元个数(例如128,256)https://www.zhihu.com/question/64470274 双向 LSTM我今天不舒服,我打算__一天。只根据‘不舒服‘,可能推出我打算‘去医院‘,‘睡觉‘,‘请假‘等等,但如果加上后面的‘一天‘,能选择的范围就变...
2018-10-09 11:44:17 414
原创 CNN学习的补充
卷积神经网络的基本架构由3部分组成:卷积,池化 和 全连接。卷积是用一个滑动窗口从输入图像中提取特征。池化操作为了降低维度。池化操作的输出图像的大小:(输入图像宽度 - 内核宽度 + 2*padding) / 步长 + 1https://blog.csdn.net/cicibabe/article/details/73075222 pooling的结果是使得特征减少,参数减少,但po...
2018-10-08 17:15:33 209
双目视频视差图变化剧烈
2017-07-06
TA创建的收藏夹 TA关注的收藏夹
TA关注的人