迷川浩浩_ZJU-CSDN博客

原创【更新于12.29】深度学习论文汇总

本博客用于记录自己平时收集的一些不错的深度学习论文，近9成的文章都是引用量3位数以上的论文，剩下少部分来自个人喜好，本博客将伴随着我的研究生涯长期更新，如有错误或者推荐文章烦请私信。深度学习书籍和入门资源LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444. [PDF]（深度学习最权威的综述）

2017-04-07 19:51:34 19507 7

原创深度学习笔记（0）——机器学习基本概念

本篇博客仅针对毫无机器学习理论背景的人，其他人可以直接跳过。机器学习(machine learning)是最近非常火的一个领域，关于其一些基本定义百度百科、维基百科或者网上随便都可以找到很多资料，所以这里不做过多解释。就我个人理解，通常任何问题我们都可以用一个数学模型来解释： y=f(x)y=f(x) 在统计学习方法里面通常使用的是P(y|x)P(y|x)，为了方便理解，不妨不严谨地把P看作是

2017-01-19 14:52:47 9503 6

原创 windows 的GPU版本tensorflow，keras，tensorlayer搭建

安装VS编译器在windows安装NVIDIA的CUDA驱动需要先安装VS的编译器，VS最低的版本是VS2010，网上去下个破解自己安装一下就行，这里不做特别说明。安装CUDA新版本的CUDA已经安装起来相当方便了，只需要去官网根据操作系统选择自己对应的版本cuda就行，下载建议使用local版本，而不是network版本，离线安装就是要方便一点。现在下来之后直接双击安装，除非C盘存在空间的问题，否

2016-12-23 15:18:49 3990 3

原创基于Visual attention的图片主题生成

引言Attention model 在序列end to end问题上广泛应用，结合RNN、LSTM、GRU等常用递归神经网络可以取得很好的效果；在计算机视觉领域也有非常广泛的利用，因为序列因素的存在，所以通常在图文转换或者视频描述等应用中出现。Visual attention model的意义在引入Attention(注意力)之前，图像识别或语言翻译都是直接把完整的图像或语句直接塞到一个输入，然后

2016-11-07 19:47:26 7330 3

原创 ECCV2018 Person Re-identification 论文列表

正统ReID研究Maximum Margin Metric Learning Over Discriminative Nullspace for Person Re-identification [pdf]RCAA: Relational Context-Aware Agents for Person Search [pdf]Generalizing A Person Retrieva...

2018-09-10 20:42:44 1595 2

原创【论文笔记】Person Transfer GAN to Bridge Domain Gap for Person Re-Identification

摘要本文提出了一种针对于ReID的生成对抗网络PTGAN，可以实现不同ReID数据集的行人图片迁移，在保证行人本体前景不变的情况下，将背景转换成期望的数据集style。另外本文还提出一个大型的ReID数据集MSMT17，这个数据集包括多个时间段多个场景，包括室内和室外场景，是一个非常有挑战的数据集。论文用PTGAN来缩小不同数据集间的domain gap，并在新提出的MSMT17这个大数据集和

2018-01-23 22:37:54 7697 12

原创【论文笔记】CycleGAN

前言： CycleGAN是发表于ICCV17的一篇GAN工作，可以让两个domain的图片互相转化。传统的GAN是单向生成，而CycleGAN是互相生成，网络是个环形，所以命名为Cycle。并且CycleGAN一个非常实用的地方就是输入的两张图片可以是任意的两张图片，也就是unpaired。单向GAN读者可以按照原论文的顺序理解CycleGAN，这里我按照自己的思路解读。CycleGAN本质上是两个

2017-12-14 22:13:14 50116 18

原创 ICCV2017论文分类

Person ReIDNeural Person Search MachinesCross-View Asymmetric Metric Learning for Unsupervised Person Re-IdentificationSHaPE: A Novel Graph Theoretic Algorithm for Making Consensus-Based Decisions i

2017-11-09 21:32:50 6190

原创【论文笔记】Neural Person Search Machines (ICCV2017)

摘要作者调查了一下室外真实场景下的Person ReID工作，大部分相关工作都是detection+ReID分成两步来做的，这篇文章提出NPSM方法来实现一步到位。NPSM主要借助LSTM和attention的思想，逐步衰减原图中所应该关注的ROI区域，直到最后得到一个很精确的ROI区域，这个区域就是应该搜索的person目标。实验结果表明，在CUHK-SYSU和PWR数据集上都取得了State-o

2017-11-08 21:55:36 5590 3

原创【论文笔记】Margin Sample Mining Loss: A Deep Learning Based Method for Person Re-identification

摘要Person re-identification (ReID) is an important task in computer vision. Recently, deep learning with a metric learning loss has become a common framework for ReID. In this paper, we propose a new me

2017-11-07 14:12:22 4675 5

原创【论文笔记】In Defense of the Triplet Loss for Person Re-Identification

1、前言Triplet loss是非常常用的一种deep metric learning方法，在图像检索领域有非常广泛的应用，比如人脸识别、行人重识别、商品检索等。传统的triplet loss训练需要一个三元组，包括三张图片：achor,positive,negative，分别简写为a,p,n。==Triplet loss的缺点在于随机从训练集中挑选出三张图片，那么可能会出现挑选出来的很可能是简单

2017-11-01 18:46:50 11745 6

原创深度学习笔记（6）——CNN中的卷积block

因为最近写各种论文所以一直没有更新，准备先开个坑之后再填。这篇博客将是CNN网络的终结篇，之后将会开始介绍RNN网络。CNN网络最初诞生的时候结构比较简单，都是几个卷积层堆叠一下。但是微软的Resnet和谷歌的Inception系列网络把CNN带到一个设计各种block反复调用的时代。比起传统的CNN网络，新的block设计能够在简化运算的同时保持甚至提高网络的泛化能力。那么本篇博客就来介绍一下现在

2017-10-06 13:44:05 13849 2

原创 Mac终端Iterm2快捷键大全

标签新建标签：command + t关闭标签：command + w切换标签：command + 数字 command + 左右方向键切换全屏：command + enter查找：command + f

2017-07-25 22:47:08 4633

原创深度学习笔记（5）——学术界的霸主Resnet

前言在当今学术界的论文里，几个baseline网络LeNet、AlexNet、VGGNet、GoogLeNet、ResNet都是大家用的多的CNN网络。其中LeNet、AlexNet、VGGNet这三个都是很古老的CNN线性网络，属于新手喜欢用的VGG like 网络，这些网络结构简单，从输入到输出一条路走到黑，所以工业界对这些网络都有很有效的加速优化，但是在学术界却因为泛化能力有限近年逐渐被淘汰。

2017-07-23 17:06:47 6311

原创深度学习笔记（3）——CNN中一些特殊环节的反向传播

在深度学习笔记（2）——卷积神经网络（Convolutional Neural Network）中我们介绍了CNN网络的前向传播，这一篇我们介绍CNN的反向传播，讲到反向传播的时候实质就是一大堆求梯度的数学公式，这些公式其实已经在深度学习笔记（1）——神经网络(neural network) 那篇博客中介绍过了，所以这里就不再介绍。但是传统的神经网络无论是隐层还是激活函数的导数都是可导，可

2017-06-05 21:38:43 22901 13

原创深度学习笔记（2）——卷积神经网络（Convolutional Neural Network）

卷积神经网络（Convolutional Neural Network, CNN）是深度学习转折的标志性成果，在深度学习的早期，以Hinton等为代表的学者们研究主要集中在RBM（限制波尔兹曼机），AE（自编码器）等传统的全连接神经网络框架上，这个时期虽然出现了很多无监督、优化函数改进之类的研究，使得传统的神经网络层数有所增加，但是终究没有脱离全连接神经网络框架的约束，以至于最终网络可训练的参数量还

2017-04-05 14:00:15 10763 5

原创【论文笔记】Unsupervised Learning of Video Representations using LSTMs

这篇文章是深度学习应用在视频分析领域的经典文章，也是Encoder-Decoder模型的经典文章，作者是多伦多大学深度学习开山鼻祖Hinton教授的徒子徒孙们，引用量非常高，是视频分析领域的必读文章。摘要翻译我们使用长短时记忆（Long Short Term Memory, LSTM）网络来学习视频序列的表征。我们的模型使用LSTM编码器将输入序列映射到一个固定长度的表征向量。之后我们用一个或多个L

2017-03-26 21:21:41 9482 1

原创深度学习笔记（4）——Sigmoid和Relu激活函数的对比

Relu是一个非常优秀的激活哈数，相比较于传统的Sigmoid函数，有三个作用： 1. 防止梯度弥散 2. 稀疏激活性 3. 加快计算首先我们看下sigmoid和relu的曲线然后可以得到sigmoid的导数以及relu的导数结论就是sigmoid的导数只有在0附近的时候有比较好的激活性，在正负饱和区的梯度都接近于0，所以这会造成梯度弥散，而relu函数在

2017-03-20 15:56:07 19950

原创【论文笔记】Video2Vec: Learning Semantic Spatial-Temporal Embeddings for Video Representation

摘要翻译这篇论文我们提出了一种视频片段的语义和时空信息嵌入(embedding)方法。视频作为语义连续的时序列帧，我们借助视频的这个特点来表达视频的高层特征（备注，视频和图像的高层特征通常就是指understanding层面）。我们的网络提取CNN的特征并且训练了两个学习视频的文本信息地独立GRU编码器，此外我们还把视频的彩色图像序列和光流序列嵌入到相同尺寸的表征向量(representation)

2017-03-13 16:21:45 2601 1

原创深度学习笔记（1）——神经网络(neural network)

神经网络是机器学习中的一种经典模型，也是现在深度学习的前身和基础，因此如果要想掌握深度学习，必须通透地了解神经网络。关于神经网络需要做到以下几点：了解神经网络的线性结构，了解非线性激活函数，掌握参数训练的反向传播算法(BP, backpropagation)，了解多层神经网路的梯度弥散问题。神经元和感知机神经网络是由一个个基本的神经元组合而成的，而这些神经元模拟人脑中神经细胞，拥有若干个输入和输出（

2017-02-20 22:03:55 8752 3

转载深度学习优化方法比较

看到一篇比较不错的文章，比较了深度学习中的各种优化方法，可以看这篇博客

2016-12-30 12:36:39 2206

原创 Mac CPU版本tensorflow，Theano，tensorlayer，keras搭建

Anaconda环境搭建Mac CPU版本与windows版本类似，但更为简单。首先下载Anaconda，py2,py3版本的都可以，这里给出官方下载链接，下载对应的mac版本，然后正常安装就行。如果被拦截了就去系统设置手动点开被拦截的文件安装，mac版本的IDE Spyder不能创建快捷方式打开，要么通过Anaconda Cloud点开，这个速度慢一点。要么command+空格输入ter进入终端

2016-12-05 20:33:11 3454

原创 Windows 64位 tensorflow、keras、tensorlayer搭建

Anaconda环境搭建Tensorflow在最新版本0.12目前支持了windows系统，虽然还有部分功能不能使用，但是足够平时使用了，但是这个版本的tensorflow只支持py3.5。为了规避各种麻烦的库环境搭建的问题，最脑残的安装方式是下载最新版的Anaconda3安装，这里给出官方下载链接，下载版本是python3.5对应的Anaconda4.2.0。下载下来之后就双击一路正常安装就行。T

2016-12-05 20:20:44 7294 1

原创极限学习机(ELM)

1. 引言极限学习机(extreme learning machine)ELM是一种简单易用、有效的单隐层前馈神经网络SLFNs学习算法。2004年由南洋理工大学黄广斌副教授提出。传统的神经网络学习算法（如BP算法）需要人为设置大量的网络训练参数，并且很容易产生局部最优解。极限学习机只需要设置网络的隐层节点个数，在算法执行过程中不需要调整网络的输入权值以及隐元的偏置，并且产生唯一的最优解，因此具有学

2016-11-10 20:21:41 8108 1

原创一种机器翻译的评价准则——Bleu

1. 引言在牵涉到语句生成尤其是机器翻译的应用领域，如何衡量生成语句与参考语句之间的相似性是一个很重要的问题，而在2002年Kishore Papineni et al.就提出了一个经典的衡量标准Bleu，如今这篇文献已经引用量过万，因此是NLP领域必读文章之一。2. 论文中使用的例子论文中给出了四个例子来辅助解释算法，每个例子都有待评价(Candidate)语句和标准参考(Reference)语句

2016-11-10 14:41:38 15520 2

原创 Ubuntu14.04 & CUDA8.0 & Theano & Tensorflow & TensorLayer & Cudnn安装血泪史

1、安装Ubuntu系统这个只要用优盘做一个启动盘就好，然后安装就好了，为了之后cuda安装顺利，这里特别提示/tmp挂载点尽量大一点，我也不知道具体需要多大，反正我给了100G。2、卸载和安装显卡驱动为了之后安装NVIDIA显卡驱动，需要把Ubuntu系统自带的两个驱动给卸载掉（1）屏蔽集显nouveau，编辑黑名单文件sudo gedit /etc/modprobe.d/blacklist.co

2016-11-08 20:28:01 1294

原创 Attention model

引言Attention model(AM)最先在计算机视觉中被应用于图片识别的问题，之后在自然语言处理(NLP)和计算机视觉(CV)中经常结合递归神经网络结构RNN、GRU、LSTM等深度学习算法，被称之为Recurrent Attention Model(RAM)，其核心就是一个Encoder-Decoder的过程。传统的Encoder-Decoder模型例如RNN在做文本翻译是把一个输入语句(x

2016-11-08 16:14:59 15813 1

原创基于attention的video描述

引言这片博文内容主要基于2015年Y Li的论文Video Description Generation Incorporating Spatio-Temporal Features and a Soft-Attention Mechanism，本文将soft-attention机制引入到视频描述中。视频特征提取采用一个用动作识别视频集训练的3-D CNN网络，之后利用soft-attention机

2016-11-07 19:26:24 5459 1

迷川浩浩的博客