papers
Xiaomin-Wu
这个作者很懒,什么都没留下…
展开
-
Learning both Weights and Connections for Efficient Neural Network -- 论文笔记
这是2015年斯坦福和英伟达的一篇论文。1.简介:通过修剪训练后网络中的不重要连接(connections),来减少网络所需要的参数,减少内存和cpu的消耗,使网络更加适应在移动设备上运行。2.idea思想:1)首先训练整个网络,判断哪些是重要连接。2)修剪不重要的连接。3)重新训练修剪后的网络,微调保留下来的参数。3.达到的效果:1)在ImageNet上,减少了AlexNet 9倍的参数,从61原创 2015-09-25 17:35:21 · 6645 阅读 · 5 评论 -
Conditional Random Fields as Recurrent Neural Networks
牛津,斯坦福,IDL的一篇论文介绍:1.传统的用于Object Recognition的CNN很难转换为用于segmentation的 pixel-wise predicting:1)感受野过大以及pooling操作使的feature map很coarse2)缺少smooth机制导致poor object delineation和small spurious region2.MRF(马尔科夫随机场)原创 2016-03-09 21:42:46 · 4522 阅读 · 2 评论 -
U-Net: Convolutional Networks for Biomedical Image Segmentation
1.下降部分conv+maxpool,上升部分conv_transpose+conv,浅色大箭头表示把两个feature map连起来 2.输入图片会比输出图片略大(因为没有padding和repeat) 3.支持任意大小的图片输入,采用mirror方式处理missing patch部分 4.可以给loss加权原创 2016-03-20 22:00:36 · 7070 阅读 · 0 评论 -
Deep Dream and Neural Style
Neural Style:通过优化三个loss:(1)style loss:主要是优化base image和style reference image之间的L2 距离(优化多个conv层的feature maps) (2)content loss:主要优化base image 和 combination image之间的L2距离(主要优化一层的feature maps) (3)total原创 2016-03-07 13:30:08 · 1280 阅读 · 0 评论 -
Multi-digits Recognition Using ConVNet on Mobile categories:
这是Stanford,Mobile Computer Vision课程的一个final report简介使用DeepBeliefSDK和opencv等工具,使用ConVNet模型做了一个Android APP。功能是能够从一张图中识别0-9几个数字。因为在移动设备上,设备的运算速度和memory都受到了限制,所以作者设计了一个简单的卷积网络(两层卷积两层maxpooling),并且使用了batchi原创 2016-03-06 15:46:50 · 818 阅读 · 0 评论 -
Learning Deconvolution Network for Semantic Segmentation
Intro:不同于FCN的Deconvolution(最后一层其实是双线性差值,weights不可学习),这篇文章中的Deconvolution layer中的params都是可以学习的: Idea:1. Unpooling:首先subpooling的时候记住max pooling layer选择的最大值的location,然后在Unpooling层还原回原location,其它像素应该是用0代替原创 2016-03-15 16:21:13 · 3891 阅读 · 0 评论 -
What makes for effective detection proposals?
论文笔记 《What makes for effective detection proposals?》 最近开始准备回到detection大坑,刚好看到一篇关于object proposal的综述,而且貌似是中了PAMI的,所以就下载下来读了一下。论文的项目地址:https://www.mpi-inf.mpg.de/departments/computer-vision-and-m转载 2015-10-02 14:56:20 · 1428 阅读 · 0 评论 -
LSTM与GRU的一些比较--论文笔记
reference:Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling1.概要:传统的RNN在训练long-term dependencies 的时候会遇到很多困难,最常见的便是vanish gradient problen。期间有很多种解决这个问题的方法被发表。大致可以分为两类:一类是以新的方法改原创 2015-10-01 13:29:52 · 69766 阅读 · 1 评论 -
PRelu--Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification
微软研究院2015的一片论文。1.概要:PRelu其实是Relu的增强版,PRelu使得模型在ImageNet2012上的结果提高到4.94%,超过普通人的正确率;PRelu需要像更新权重weights一样使用BP更新一个额外的参数,但是相较于weights的数量来说,PRelu需要更新的参数总数可以忽略不计,所以不会加重overfitting的影响。如果PRelu的参数为0,那其实就是Relu;如原创 2015-09-28 19:12:50 · 9496 阅读 · 4 评论 -
Batch Normalization 简单理解
1:背景由于在训练神经网络的过程中,每一层的 params是不断更新的,由于params的更新会导致下一层输入的分布情况发生改变,所以这就要求我们进行权重初始化,减小学习率。这个现象就叫做internal covariate shift。2:idea思想虽然可以通过whitening来加速收敛,但是需要的计算资源会很大。而Batch Normalizationn的思想则是对于每一组batch,在网络原创 2015-09-23 14:47:00 · 28458 阅读 · 2 评论 -
Spatial Pyramid Pooling in Deep Convolutional --- Spp_net
微软亚研院2015的一篇文章,优点是能够满足任意大小图像的输入,通过整个原图一次性的输入卷积网络,解决了RCNN检测速度慢的问题。主要思想:(1)Spatial Pyramid Pooling Layer. 正是因为该层,才让Spp_net能够实现任意图片的输入,并且得到固定长度的特征向量:stride和window的计算:(2)Mapping a Window to Feature Maps. 将原创 2015-09-01 15:10:46 · 2275 阅读 · 1 评论 -
Network in Network -- 论文笔记
1.概述:作者的想法就是将ConVNet的filter用micro network代替,FC层用global average pooling代替。这样做的好处就是,micro network比filter能提取到更加抽象的特征,global average polling没有参数,相比于FC,能够消除FC层带来的overfitting的影响。2.idea:1):MLP Convolution Lay原创 2015-09-26 22:00:17 · 2895 阅读 · 0 评论 -
Fully Convolutional Networks for Semantic Segmentation
UC伯克利的一篇文章介绍:1.Semantic Segmentation有两个固有性质:1)semantic: global information解决目标是什么的问题2)location:local information解决目标在哪的问题2.关于本文提出的FCN:1)利用现有的Classification model进行finetuning2)通过 skip connections来combin原创 2016-03-11 19:48:50 · 8016 阅读 · 1 评论