自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 问答 (1)
  • 收藏
  • 关注

原创 文字识别 CRNN-白翔

pytorch代码(只针对英文)https://blog.csdn.net/u013102349/article/details/79515147中文翻译架构包括三部分:1) 卷积层,从输入图像中提取特征序列;2) 循环层,预测每一帧的标签分布(每帧预测);3) 转录层,将每一帧的预测变为最终的标签序列。CNN:特征序列的每一个特征向量在特征图上按列从左到右生成。这意味着第i个特征向...

2018-10-10 11:00:33 2577

原创 文字定位 CTPN-黄伟林

论文翻译汇总https://github.com/SnailTyan/deep-learning-papers-translation2016年 ECCV业界现在物体识别领域用的最多的是proposal region方法,即通过筛选出候选区域,然后对候选区域进行二分类(object/ no object), 同时还要对bound box进行回归,这是一般的物体识别所用的方法。 CTPN...

2018-10-10 10:59:57 993

原创 SSD mask-RCNN

SSD(Single Shot MultiBox Detector)(1)two-stage方法,如R-CNN系算法,其主要思路是先通过启发式方法(selective search)或者CNN网络(RPN)产生一系列稀疏的候选框,然后对这些候选框进行分类与回归,two-stage方法的优势是准确度高;(2)one-stage方法,如Yolo和SSD,其主要思路是均匀地在图片的不同位置进行密集抽...

2018-10-10 10:58:48 1218

原创 YOLO

onfidence scores反映了模型对于这个栅格的预测:该栅格是否含有物体,以及这个box的坐标预测的有多准。 公式定义如下: 如果这个栅格中不存在一个 object,则confidence score应该为0;否则的话,confidence score则为 predicted bounding box与 ground truth box之间的 IOU每一个栅格还要预测C个 con...

2018-10-10 10:57:23 169

原创 RCNN、fast-RCNN、faster-RCNN

rbg主页有代码http://www.rossgirshick.info/Fast RCNN(2015年)基础:RCNN简单来说,RCNN使用以下四步实现目标检测: a. 在图像中确定约1000-2000个候选框 b. 对于每个候选框内图像块,使用深度网络提取特征 c. 对候选框中提取出的特征,使用分类器判别是否属于一个特定类 d. 对于属于某一特征的候选框,用回归器进一步调整其...

2018-10-10 10:56:33 207

原创 激活函数 损失函数 优化器

均方差损失函数+Sigmoid的反向传播算法中,每一层向前递推都要乘以σ′(z)(激活函数的导数),得到梯度变化值。Sigmoid的这个曲线意味着在大多数时候,我们的梯度变化值很小,导致我们的W,b更新到极值的速度较慢,也就是我们的算法收敛速度较慢。使用交叉熵损失函数,得到的梯度表达式没有了σ′(z),梯度为预测值和真实值的差距,这样求得的Wl,bl的梯度也不包含σ′(z),因此避免了反向传播收...

2018-10-10 09:29:37 1448

原创 梯度消失 梯度爆炸

梯度裁剪损失函数的值沿着梯度的方向呈下降趋势,然而,如果梯度爆炸,梯度(偏导数)很大,就会出现函数值跳来跳去,收敛不到最值的情况。当然出现这种情况,其中一种解决方法是,将学习率α设小一点,如0.0001。这里介绍梯度裁剪(Gradient Clipping)的方法,对梯度进行裁剪,论文提出对梯度的L2范数进行裁剪,也就是所有参数偏导数的平方和再开方。当你训练模型出现Loss值出现跳动,一直...

2018-10-10 09:28:31 226

原创 深度调参技巧

调参:一般在小数据集上合适的参数,在大数据集上效果也不会太差。learning rate: 1 0.1 0.01 0.001, 一般从1开始尝试。学习率一般要随着训练进行衰减。衰减系数一般是0.5。对RNN来说,有个经验,如果RNN要处理的序列比较长,或者RNN层数比较多,那么learning rate一般小一些比较好,否则有可能出现结果不收敛,甚至Nan等问题。每层结点数: 16 32 ...

2018-10-10 09:27:38 1114

原创 图像分类 AlexNet GoogleNet VGG ResNet学习

Lenet,1986年Alexnet,2012年GoogleNet,2014年VGG,2014年Deep Residual Learning,2015年 AlexNet更强调了全连接层的作用,它用了两个全连接层,那么为了减少权重的数目,才引出了dropout这个概念输入尺寸:227*227像素(因为竞赛的需要)卷积层:好多(因为输入尺寸的需要)降采样层:好多(因为输入尺寸的需...

2018-10-10 09:26:54 494

原创 训练集 验证集 测试集

训练集loss < 验证集loss < 测试集loss一个好的网络,二者的差距应该是很低的。但一般情况下因为网络不可避免地存在一定程度上的过拟合,所以肯定是train_loss低于test_lost,但如果低太多,就得考虑是过拟合的问题还是因为样本的特征空间不统一的问题。http://www.mooc.ai/bbs/question/1426/show验证集基本是在每个epoc...

2018-10-09 16:50:48 1352

原创 网络收敛问题汇总

loss太大:把lr改小loss的下降速度非常慢:batchsize太小训练集的损失已经下降到比较满意的值,但是(!!!!)验证集上的损失几乎没有下降,或者是说相比与训练集的损失值不在一个数量级上!!!最本质的原因:网络模型在小数据库上出现过拟合。训练数据太少精度不高或者为0的问题结果来自 <http://www.cnblogs.com/hust-yingjie/p...

2018-10-09 16:50:15 4795

原创 batch size设置技巧

显存占用不是和batch size简单成正比增大batch size能减缓梯度震荡,需要更少的迭代优化次数,收敛的更快,但是每次迭代耗时更长。https://zhuanlan.zhihu.com/p/31558973要想收敛到同一个最优点,使用整个样本集时,虽然迭代次数少,但是每次迭代的时间长,耗费的总时间是大于使用少量样本多次迭代的情况的。实际上,工程上在使用GPU训练时,跑一个样本...

2018-10-09 16:08:51 17491 2

原创 dropout层

tf.nn.dropout是TensorFlow里面为了防止或减轻过拟合而使用的函数,它一般用在全连接层。tf.nn.dropout(x, keep_prob, noise_shape=None, seed=None, name=None) 上面方法中常用的是前两个参数:第一个参数x:指输入第二个参数keep_prob: 设置神经元被选中的概率,在初始化时keep_prob是一个占位符,...

2018-10-09 16:08:17 2768

原创 TensorFlow学习

桌面云上tensorflow1.2,linux服务器上tensorflow1.4说明文档https://www.tensorflow.org/get_started/?hl=zh-cnwindows下安装pip install tensorflow 来自 <https://blog.csdn.net/zhuzhishi2042/article/details/72888312&...

2018-10-09 16:07:03 212

原创 PyTorch学习

版本 pytorch0.4/pytorch0.41小型CNN教程https://www.jianshu.com/p/e4c7b3eb8f3d中文文档https://pytorch-cn.readthedocs.io/zh/latest/package_references/torch-nn/《深度学习框架PyTorch:入门与实践》的对应代码来自 <https://git...

2018-10-09 14:40:08 507

原创 Embedding层

为什么要使用嵌入层 Embedding呢? 主要有这两大原因:1、使用One-hot 方法编码的向量会很高维也很稀疏。2、训练神经网络的过程中,每个嵌入的向量都会得到更新。“deep learning is very deep”通过索引对该句子进行编码1 2 3 4 1创建嵌入矩阵这样,我们就可以使用嵌入矩阵来而不是庞大的one-hot编码向量来保持每个向量更小。简而言之,嵌...

2018-10-09 14:34:27 1422

原创 seq2seq学习

根据输出和输入序列不同数量rnn可以有多种不同的结构:one to one 结构,仅仅只是简单的给一个输入得到一个输出,此处并未体现序列的特征,例如图像分类场景。one to many 结构,给一个输入得到一系列输出,这种结构可用于生产图片描述的场景。many to one 结构,给一系列输入得到一个输出,这种结构可用于文本情感分析,对一系列的文本输入进行分类,看是消极还是积极情感。man...

2018-10-09 11:50:27 366

原创 RNN、LSTM、GRU学习补充

隐藏层神经元个数的解释每一个小黄框代表一个前馈网络层,对,就是经典的神经网络的结构,num_units就是这个层的隐藏神经元个数(例如128,256)https://www.zhihu.com/question/64470274 双向 LSTM我今天不舒服,我打算__一天。只根据‘不舒服‘,可能推出我打算‘去医院‘,‘睡觉‘,‘请假‘等等,但如果加上后面的‘一天‘,能选择的范围就变...

2018-10-09 11:44:17 414

原创 CNN学习的补充

卷积神经网络的基本架构由3部分组成:卷积,池化 和 全连接。卷积是用一个滑动窗口从输入图像中提取特征。池化操作为了降低维度。池化操作的输出图像的大小:(输入图像宽度 - 内核宽度 + 2*padding) / 步长 + 1https://blog.csdn.net/cicibabe/article/details/73075222 pooling的结果是使得特征减少,参数减少,但po...

2018-10-08 17:15:33 209

将多页PDF文件,拆分为单页的PDF文件

将多页PDF文件,拆分为单页的PDF文件

2024-01-21

PDF文件压缩 本方法适用于扫描件PDF文档压缩,可编辑PDF文档不建议使用本方法

将大文件PDF压缩成小文件PDF

2024-01-18

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除