KFXW-CSDN博客

原创如何在MXNet中使用channel Dropout (Dropout2d)

在很多实际使用场景下，特别是语义分割等输出像素级预测结果的全卷积神经网络中，经常会使用到随机drop特征图维度的操作。在Pytorch中，可以直接使用torch.nn.Dropout2d实现相应功能。然而在MXNet中可能略显麻烦。查阅MXNet文档并不能直接找到所需的信息，因为Dropout模块被定义为了最基础版本的、随机drop数组中任意元素的功能。唯一可能与需求相关的参数’axes’，其定...

2019-03-18 16:35:25 1546 1

原创给阿里云远程服务器实例配置远程桌面（不修改防火墙，MobaXterm方案）

启动阿里云远程服务器后默认只能使用命令行界面进行交互。如要配置远程桌面环境，需要两个步骤：远程安装VNC与配置远程连接。本文假设使用者无法修改远程实例的防火墙设定，配置远程连接是使用SSH的22端口进行转发。1. VNC安装VNC的安装较为简单，可以参考1,2等步骤逐行执行命令即可。当VNC运行第一个桌面服务的时候默认监听5901端口。2. 配置远程连接按照1,2等方法需要配置阿里云控制台...

2019-02-21 19:32:58 1351

原创 [深度学习论文笔记]Temporal Localization of Fine-Grained Actions in Videos by Domain Transfer from Web Images

[ACM MM 15] Temporal Localization of Fine-Grained Actions in Videos by Domain Transfer from Web ImagesChen Sun, Sanketh Shettyy, Rahul Sukthankary and Ram Nevatiafrom USC & Googlepaper linkMot...

2019-01-03 19:59:53 705

原创 [深度学习论文笔记][arxiv 1805] Why do deep convolutional networks generalize so poorly to small image transf

[arxiv 1805] Why do deep convolutional networks generalize so poorly to small image transformations?Aharon Azulay and YairWeissfrom Hebrew University of Jerusalempaper linkIntroduction深度卷积...

2018-08-25 18:23:14 987

原创 python将控制台输出保存至文件

很多时候在Linux系统下运行python程序时，控制台会输出一些有用的信息。为了方便保存这些信息，有时需要对这些信息进行保存。这里介绍几种将控制台输出保存到文件中的方式：1 重定向标准输出流重定向标准输出流有两种方式，既可以在每个print方法中进行重定向，如下所示：# assume the log file is 'a.log'# for python2print &g...

2018-08-14 18:10:24 49963 30

原创使用numpy时警告：RuntimeWarning: numpy.dtype size changed, may indicate binary incompatibility

在新安装numpy之后运行python程序时可能会遇到以下警告：/usr/local/lib/python2.7/dist-packages/scipy/linalg/basic.py:17: RuntimeWarning: numpy.dtype size changed, may indicate binary incompatibility. Expected 96, got 88...

2018-08-12 14:50:54 11001 2

原创 [深度学习论文笔记][AAAI 18]Accelerated Training for Massive Classification via Dynamic Class Selection

这篇文章研究当分类器分类个数非常大的时候，如何高效训练分类器的问题。在网络的输出层，Softmax分类器会对每一个类产生一个输出。因此输出层的参数量、占用的空间和计算量是和分类个数呈正相关的。当在某些实际应用场景下，如人脸识别、自然语言处理等，其分类个数（如人的身份数量、单词种类数）会非常大，以至于使网络的输出层的参数多到无法存储在显卡中，而且无法承受如此量级的计算。这篇文章针对这个问题提出一点观察结果和一个解决该问题的方案。

2018-05-25 20:27:36 806

原创 [深度学习论文笔记][arxiv 1804]ExFuse: Enhancing Feature Fusion for Semantic Segmentation

这篇文章着重研究语义分割网络中高低层特征融合的效率问题。在很多工作中，融合不同尺度的特征是提高分割性能的一个重要手段。低层特征分辨率更高，包含更多位置、细节信息，但是由于经过的卷积更少，其语义性更低，噪声更多。高层特征具有更强的语义信息，但是分辨率很低，对细节的感知能力较差。如何将两者高效融合，取其长处，弃之糟泊，是改善分割模型的关键。

2018-05-22 23:41:45 5941

原创 [深度学习论文笔记][CVPR 18]Path Aggregation Network for Instance Segmentation

本文提出了名为PANet的网络结构，用于物体检测(object detection)和实例分割(instance segmentation)任务。该网络基于FPN[1]和Mask RCNN[2]模型之上提出了三点创新，显著地提升了模型在物体检测和实例分割网络上的性能

2018-03-12 17:32:35 2672 4

原创 [深度学习论文笔记][CVPR 17 oral]A-Fast-RCNN： Hard Positive Generation via Adversary for Object Detection

这篇文章提出了一种新的对手生成策略，通过训练提升检测网络对遮挡、形变物体的识别精度。遮挡和形变是检测任务中影响模型性能的两个显著因素。增加网络对遮挡和形变的鲁棒性的一个方式是增加数据库的体量。但是由于遮挡的图片一般都处在图像分布的长尾部分，即便增加数据，遮挡和形变的图片仍是占比较少的部分。另一个思路就是使用生成网络产生遮挡和形变图片。然而遮挡和形变的情况太多，直接生成这些图片还是比较困难的事情。

2018-02-23 01:03:14 1603

原创 [深度学习论文笔记][ICLR 18]mixup: BEYOND EMPIRICAL RISK MINIMIZATION

[ICLR 18]mixup: BEYOND EMPIRICAL RISK MINIMIZATIONHongyi Zhang, Moustapha Cisse, Yann N. Dauphin and David Lopez-Pazfrom MIT & FAIRpaper linkOverview这篇文章提出了一种新的数据扩展方法。该方法简单有效。同时作者在文章中进行了详

2018-01-31 00:41:50 4467

原创 latex中如何使表格被文字环绕

有时为了充分利用文档空间，需要让宽度较小的表格被文字环绕，做到如下效果为了实现此效果，可以使用warpfig包。可在此处下载。使用方法如下：\usepackage{wrapfig}\begin{wraptable}{r}{4.3cm} \centering \begin{tabular}{lrrr} %..... \end{tabular}\end{wraptable}

2018-01-23 16:46:44 17142 3

原创 Latex表格大小调整常见问题汇总

列宽调整若要调整每列的宽度到指定数值，可以将代码中的\begin{tabular}{c|ccc}改为\begin{tabular}{p{xxx}|ccc}其中花括号里面填写宽度数值，如5pt，10mm等。如果需要该列居中，可以写作\begin{tabular}{p{xxx}{\centering}|ccc}行高调整行高的调整其实是调整文字与上下表格线的距

2018-01-03 18:04:36 97526 5

原创 [深度学习论文笔记][arxiv 1711]Learning to Segment Every Thing

这是一篇在实例分割问题(instance segmentation)中研究扩展分割物体类别数量的论文。目前instancce segmentation任务分类种类过少主要是因为分割标注的数量较少，而检测框的标注已经覆盖了非常多的种类，比如Visual Genome数据库。如果要拓展可分割物体类别数量，则或多或少需要引入弱/半监督的学习方法。

2017-11-30 20:28:22 3896

原创 [深度学习论文笔记][ICCV 17]Semi Supervised Semantic Segmentation Using Generative Adversarial Net

第一篇将GAN应用在分割中的文章来自于[1]。在此之后出现的GAN+语义分割的文章也基本遵从[1]中的思路，即在传统语义分割训练框架中加一个adversarial loss，将分割网络视作生成器。这篇文章则是从另一个角度考虑问题，即将分割网络视作判别器，使用GAN的生成器扩展训练数据，从而提升训练效果。

2017-11-27 22:20:16 4004

原创 [深度学习论文笔记][arxiv 1711] Non-local Neural Networks

在这篇文章中，作者提出了一种非局部模块(non-local block, 简称NL block)的网络结构，来帮助深度网络更好地融合非局部的信息。这对于一些问题是非常重要的。

2017-11-26 00:07:24 8663 2

转载如何debug caffe中的cu文件

对caffe、mxnet等框架的cu文件一直是一个很让人头疼的问题，特别是涉及跟进kernel函数的操作时，用cout打印变量的方式不能奏效。本文将介绍使用cuda-gdb对caffe的cu文件进行debug的方法。本文默认你的驱动、CUDA、OPENCV等caffe所需环境已经配置好，不再赘述此类内容。

2017-11-01 21:18:05 2373

原创 [深度学习论文笔记][IJCAI 17]Beyond Universal Saliency - Personalized Saliency Prediction with Multi-task CNN

这篇文章针对的问题是显著性检测(saliency detection)中的人眼注意力预测(eye fixation prediction)任务。这篇文章主要有两点贡献：1. 首先提出人眼注意力是因人而异的，而不应该是如之前的研究认为的不同人的注意力区域是统一的；2. 提出了一个多任务网络结构框架用以更好地预测个性化的人眼注意力区域。

2017-10-14 20:40:09 1525

原创 [深度学习论文笔记][ICCV 17 oral]Binarized Convolutional Landmark Localizers for Human Pose Estimation and...

这篇文章是对特征点定位网络（pose estimation & facial landmark detection）进行加速和压缩的工作。文章以Hour-Glass[1]模型为出发点，利用二值化网络[2,3]的转化方式修改模型结构。另外根据二值化网络中出现的特有现象改进网络中residual block的结构。

2017-09-28 21:21:12 1881 2

原创在caffe.proto中定义变量出现“'xxxParameter' has no member named 'xxx'”问题的解决

在caffe.proto中某一message添加成员变量时，最好避免使用大写字母。在编译过程中message里的成员变量名会自动将所有字母变为小写。如果在C++代码中仍然使用带有大写字母的变量时则会产生找不到定义的问题。

2017-09-27 11:14:52 11060 2

原创在caffe中使用C++ 11特性的编译问题

有时在编写caffe代码时为了简便可能会使用C++98之后的一些新特性，如果不对caffe的默认编译选项进行修改则会产生诸如“xxx is not a member of 'std'”或者某些函数没有匹配声明的错误。例如C++11新增的一些特性如：numeric中的iota函数、可以自定义比较操作的sort函数、lambda函数定义等。

2017-09-27 10:53:11 4118 1

原创无联网条件下的Docker部署

Docker在无联网条件下的部署十分简单。只需要一台联网的电脑和优盘即可完成这个过程。

2017-09-25 10:11:07 3946

原创 [深度学习论文笔记][总结]Invariant gait feature extraction based on image transformation

近期有两篇来自于同一第一作者单位的工作，使用基于神经网络的图像变换模型来处理不同视角、不同衣着或手持物的CEI特征到统一的90°正常特征(SPAE与GaitGAN)。在这里加以简单总结与对比。

2017-09-07 17:14:32 3224 3

原创 [深度学习论文笔记][PAMI 17]A Comprehensive Study on Cross-View Gait Based Human Identification wit

这篇文章是第一篇将深度学习引入步态识别任务的工作。文章的重点是在CASIA-B数据库上针对多视角和多行走状态的问题进行研究。模型在CASIA-B、OU-IRIS以及USF数据库上都有很好的性能表现。

2017-09-07 14:44:15 5115 23

原创步态识别问题简介

步态识别问题简介任务介绍步态识别是生物特征识别方法的一种。其基本目标是通过获取一段待检测行人正常行走的视频，与已经存储好的行人行走视屏做对比，找出待检测行人的对应于数据库中人物的身份。其优点在于检测的过程无感、非接触、不需要其它人为参与。在数据库中存储的视频被称为gallery，用来作为测试输入、待匹配的视频成为prob。GEI步态识别任务的一个重要问题是特征的提取。为了用简单的方法提取出视屏中有用

2017-09-07 10:41:04 12289 10

原创 [深度学习论文笔记][arxiv 1702]Understanding Convolution for Semantic Segmentation

这篇文章提出了对深度语义分割网络的两点改进，包括：1. 一种高效上采样方法以恢复分割结果的分辨率（Dense Upsampling Convolution, DUC）；2. 一种改进了的洞算法/膨胀卷积操作（Hybrid Dilated Convolution, HDC）。

2017-08-23 19:31:43 1127

原创 caffe编译时出现undefined reference错误的原因与解决办法

在make caffe项目的时候，可能会在最后的CXX/LD部分遇到libcaffe.so的链接过程出现undefined reference错误。此类错误出现的原因可能是.so文件进行链接时，其中的符号在链接路径中无法找到。也可能是.so等待链接的符号没有定义。

2017-08-16 20:35:47 7128 1

原创 [深度学习论文笔记][CVPR 17 Best Paper Honorable Mention] Annotating Object Instances with a Polygon-RNN

[CVPR 17 Best Paper Honorable Mention Awards] Annotating Object Instances with a Polygon-RNNLluıs Castrejon, Kaustav Kundu, Raquel Urtasun and Sanja FidlerfromUniversity of Torontopaper linkMotivation这

2017-08-01 23:17:50 3578

原创 NVcaffe源码阅读——Net&Solver

在caffe中，为了区分多GPU数据并行时，负责更新网络参数的solver被称作root solver。其他仅仅计算梯度用的solver为WorkerSolver，是Solver类的子类。 nvcaffe将WorkerSolver类同Solver本身合并，将root solver和worker solver的概念融入到统一的框架下去，添加了is_root()等函数，也添加了Reduce()等用于并行处理的函数。

2017-07-31 18:27:20 1599

原创 NVcaffe源码阅读——Layer

nvcaffe的Layer.hpp/cpp在功能上与以前的caffe相比有一些明显改变。nvcaffe对Layer.hpp的代码进行了拓展，提供了很多便利的新特性。

2017-07-27 00:14:20 2222

原创 NVcaffe源码阅读——Blob的重新构建

nvcaffe由于对数据类型做了很大的拓展，所以作者对blob的构建上做了很大改动。即向下的内存/显存管理提供了tensor类，blob类使用tensor类作为成员变量代替以前的data和diff指针；blob提供与caffe相兼容的api借口，保持功能的一致性，添加部分适应新功能的api；最后使用Tblob类包裹blob类，提供更加灵活的模板定义。

2017-07-26 22:58:17 3004

原创 [深度学习论文笔记][CVPR 16]ScribbleSup: Scribble-Supervised Convolutional Networks for Semantic Segmentation

这篇文章提出了一种基于用户交互的图片分割训练方法(ScribbleSup)。即训练者只需要在图片上的小部分区域进行标注(scribble annotation)即可训练分割网络。

2017-07-15 11:35:35 5287 1

原创 [深度学习论文笔记][ECCV16]Laplacian Pyramid Reconstruction and Renement for Semantic Segmentation

这篇文章主要研究两个出现在图像语义分割模型中的问题：1. 低分辨率的高层特征是否丢失了大量的空间位置信息。pooling使空间分辨率缩小，但是像素的位置信息可能蕴含在变多的channel里。2. 不同层特征融合方法的问题。concatenate使得特征维度变高，模型更加复杂。而相加(Sum)使得包含在channel内的位置信息损失，而且底层特征会为高层特征带来噪声。

2017-05-18 23:05:35 2456

原创 [深度学习论文笔记][CVPR 17]RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic

这篇文章提出了一套网络架构以实现高精度的语义分割任务。目前在PASCAL VOC 2012数据集上取得了最好的效果。从网络结构来看，本工作是U-Net的一个变种。文章的主要贡献和创新在于U-Net折返向上的通路之中。

2017-05-16 21:00:54 5146 2

原创如何在Ubuntu 16.04中安全升级Nvidia驱动

Nvidia在2017年5月4日发布了375.66驱动，其中添加了对gtx 1080 ti显卡的支持。本文将介绍如何在Ubuntu 16.04中快速安全升级已有的显卡驱动。

2017-05-11 16:21:37 12100

原创 [深度学习论文笔记][ICLRW 17] Learning What Data to Learn

这篇文章属于使用Bootstrap提升模型训练性能、加快模型训练速度的研究范畴。相类似的比较出名的工作有Curriculum Learning (ICML 09), self-peaced learning (NIPS 10)和最近的OHEM (CVPR 16)。这篇文章的大致思路是：设计一个训练数据的过滤器(Neural Data Filter, NDF)插入到网络输出层之前，在训练的过程中动态筛除一部分对训练益处

2017-05-08 17:46:32 1469

原创 [深度学习论文笔记][CVPR 17 oral] Inverse Compositional Spatial Transformer Networks

这篇文章是针对Spatial Transformer Network进一步改进的工作。从研究领域来看，该工作是对增强深度网络之于输入图片空间不变性的研究。

2017-04-23 00:44:05 9212 4

原创 [深度学习论文笔记][CVPR 16]Deep Metric Learning via Lifted Structured Feature Embedding

该工作要解决的问题是分类种类数目极多的图像分类任务。当分类种类非常多的时候会面临两个问题：(a) 分类器的优化难度会显著增加；(b) 种类数目多的时候，每一类的训练数据数量会比较少。

2017-04-22 21:42:15 4979

原创 [深度学习论文笔记][ECCV 16]Embedding Deep Metric for Person Re-identication A Study Against Large Variations

该文章在triplet loss的基础上做了两点改进，并将改进后的loss function应用在了person re-identification任务中：1. 在triplet loss基础上改进了正样本的选取方式；2. 修改了计算特征距离时的距离函数。

2017-04-10 19:40:57 1351

原创 [深度学习论文笔记][CVPRW 16]Learning Discriminative Features with Class Encoder

[深度学习论文笔记][metric learning][CVPRW 16]Learning Discriminative Features with Class Encoder

2017-03-13 16:21:10 1493

opensaml-2.5.3-javadoc.jar

空空如也