deep learning
文章平均质量分 91
gzj_1101
一个喜欢新事物的码农
展开
-
《3D Convolutional Neural Networks for Human Action Recognition》论文阅读笔记
前言行为识别是目前非常火的一个方向,3D CNN算是基于视频的行为识别的一分奠基性的工作。目前行为识别的应用相当的广泛。但由于背景混乱、闭塞和视觉变化等原因(cluttered backgrounds,occlusions &viewpoing variations),对行动的准确识别是一项非常具有挑战性的任务。目前的大多数方法对视频采取了想当然的假设,例如,小规模和观点变化;但这样的...原创 2018-03-08 15:06:46 · 1671 阅读 · 2 评论 -
对于ConvLSTM的理解
ConvLSTM最早是在《Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting》论文里提出,目的是为了解决降水临近预报。这个问题可以看做是一个时序问题,于是有学者尝试使用LSTM解决这个问题。但是其使用的事全连接长短期记忆网络(FC-LSTM),没有考虑到空间上的相关性\quad...原创 2018-03-16 20:39:46 · 47253 阅读 · 7 评论 -
《Two-Stream Convolutional Networks for Action Recognition in Videos》论文笔记
这篇论文是2015年发表在NIPS上的一篇文章,利用双流卷积神经网为视频中的行为识别提供类一种新的思路。 下面是个人做的总结和部分翻译。论文贡献提出了一个结合时间和空间网络的双流卷及网络构架。证明了利用多帧密集的光流场的卷及网络即使在数据较少时也能表现优异的性能。展示了应用于两个不同的行为分类的数据集的多任务学习能够用来增加训练数据量并且能够提高在两个数据集上的性能。...原创 2018-03-14 10:42:29 · 1078 阅读 · 0 评论 -
《空间金字塔池化》论文笔记
1.研究背景2.算法优点3.算法原理论文原文:《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》本篇论文是由何恺明大神于2015年发表在TPAMI上的。1.研究背景卷积神经网络的输入需要一个固定的尺寸,对于一些图像来说缩放或者裁剪会改变长宽比以及识别的准...原创 2018-04-02 21:35:35 · 3636 阅读 · 1 评论 -
关于CTC模型的理解
预备知识摘要标签错误率CTC从输出到标签构建分类器参考资料最近在看手势识别相关论文,在看到一篇论文的时候发现了LSTM+CTC能够解决数据预分割的问题。于是抱着学习的心态这篇论文《Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Ne...原创 2018-05-01 06:28:39 · 13878 阅读 · 6 评论 -
激活函数的选择
深度学习神经网络有四种常用激活函数,分别为sigmod,tanh,softmax,relu.下面总结了他们的优缺点以及如何选择。sigmod函数函数形式 函数图像如下 对其求导有 tanh函数形式: 图形为其导函数为: 在隐藏层使用的效果优于sigmod 相同的缺点在x特别大或者特别小的时候,函数梯度会接近0,使得梯度下降的速度变慢。一般用在二...原创 2018-05-28 20:23:03 · 3305 阅读 · 0 评论 -
《Multimodal Gesture Recognition Using 3-D Convolution and Convolutional LSTM》译文
基于三维卷积神经网络和卷积LSTM的多模式手势识别摘要手势识别旨在识别有意义的人体运动,并且在智能人机/机器人交互中是至关重要的。 在本文中,我们提出了一种基于三维卷积和卷积长短期记忆(LSTM)网络的多模式手势识别方法。 该方法首先通过三维卷积神经网络学习手势的短时空特征,然后基于提取的短时空特征,通过卷积LSTM网络学习长时空特征。 此外,多模式数据之间的微调进行了评估,我们发现当...翻译 2018-03-13 16:46:26 · 8735 阅读 · 0 评论 -
循环神经网络RNN
前言我们在思考和判断问题的时候,并不是总是以一个空白的状态进行思考的。我们的思考都是基于我们以前的知识或者经验,比如我们读到这篇博客的时候,考虑到这些词语或者语句表达的是什么意思,都是基于我们以前所学到的知识。也就是说我们的思想具有持续性。传统的神经网络对于这种情况显得有点无能为力。比如你想要识别出一个电影片段里面的每一个画面,由于要考虑到前后画面的连续性,传统的神经网络很处理这种问题。R原创 2018-01-28 20:40:23 · 5146 阅读 · 0 评论 -
windows10下安装tensorflow
本文首发在CSDN博客:http://blog.csdn.net/xxzhangx/article/details/54379255前几天,谷歌推出了windows对tensorflow的支持,我参考下面两篇博文来安装了我的tensorflow。为表示对原作者的尊敬,先列出参考的文章。参考文献https://m.aliyun.com/yunqi/articles转载 2017-07-03 09:29:20 · 637 阅读 · 0 评论 -
手势估计- Hand Pose Estimation
原作者地址:http://blog.csdn.net/myarrow/article/details/519336511. 目前进展1.1 相关资料 1)HANDS CVPR 2016 2)HANDS 2015 Dataset 3)CVPR 2016 4)Hand 3D Pose Estimation (Compute转载 2017-11-21 16:12:45 · 3747 阅读 · 0 评论 -
Ubuntu16.04配置安装darknet
darknet是一个开源的深度学习框架,非常小巧,不用其他库的支持就能直接运行。但是作者还是支持了cuda和opencv更加方便加速训练以及显示。下面我们开始进行darknet+cuda+opencv的安装。安装顺序opencvCUDAdarknet安装顺序一定要注意,不然出现错误非常麻烦。darknet安装顺序可以随意,但是opencv一定要cuda前面安装。不然报错很难解决只能重装系统。原创 2017-11-28 11:35:23 · 15629 阅读 · 8 评论 -
《Long-term Recurrent Convolutional Networks for Visual Recognition and Description》论文翻译
《Long-term Recurrent Convolutional Networks for Visual Recognition and Description》论文翻译原文链接:https://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Donahue_Long-Term_Recurrent_Convolutiona...翻译 2018-01-12 14:53:50 · 5410 阅读 · 0 评论 -
深度学习资料记录
最近在学习深度学习,由于没有时间系统的学习,会遇到很多专业盲区,所以在这篇博客上面记录下来评价性能的各种指标:http://blog.csdn.net/marising/article/details/6543943 batch_size详解:http://blog.csdn.net/ycheng_sjtu/article/details/49804041 epoch,iterat...原创 2017-11-02 11:20:42 · 940 阅读 · 0 评论 -
基于深度学习的目标检测框架总结
目前比较主流的基于深度学习的目标检测框架主要分为两类,一类是基于two-stage的方法,比如RCNN,Fast RCNN,Faster RCNN,将检测任务分为回归(location)和分类任务。还有基于one-stage的目标检测框架,例如YOLO/YOLOv2,SSD等,同时完成检测和回归任务。two-stage任务准确率较高,但是速度比较慢。one-stage能够达到实时性但是牺牲了精度。...原创 2018-08-01 15:56:23 · 10574 阅读 · 0 评论