2017年10月_青青韶华

11月 10月 09月 06月 03月 02月

翻译 MXNet官方文档中文版教程(9)：大规模图像分类

文档英文原版参见Large Scale Image Classification训练大规模图像的神经网络具有很多挑战。即使使用最新的GPU，也不可能使用单个GPU在合理的时间内使用大量图像来训练大型网络。通过在单个机器中使用多个GPU可以稍微缓解这个问题。但是，可以连接到一台机器（通常为8或16个）的GPU数量是有限制的。本教程介绍了如何使用多台机器（每个包含多个GPU）来训练具有TB级数据的大型

2017-10-30 16:35:59 5156 1

翻译 MXNet官方文档中文版教程(8)：使用预训练模型预测

文档英文原版参见Predict with pre-trained models本教程介绍如何使用预训练模型识别图像中的对象，以及如何进行特征提取。前提条件为了完成以下教程，我们需要：MXNet：安装教程 -Python Requests, Matplotlib and Jupyter Notebook.$ pip install requests matplotlib jupyter ope

2017-10-30 16:33:42 4693

翻译 MXNet官方文档中文版教程(7)：手写数字识别（Handwritten Digit Recognition）

文档英文原版参见Handwritten Digit Recognition在本教程中，我们将逐步介绍如何使用MNIST 数据集构建手写数字分类器。对于深度学习新手来说，这个练习可以说是和“Hello World”等同的。MNIST 是广泛使用的用于手写数字分类任务的数据集。它由70,000个有标记的，28x28分辨率的手写数字图像组成。数据集分为6万个训练图像和10,000个测试图像。共有10个

2017-10-30 16:32:17 6102 1

翻译 MXNet官方文档中文版教程(6)：线性回归（LinearRegression）

文档英文原版参见Linear Regression在本教程中，我们将介绍如何使用MXNet API实现线性回归。我们尝试学习的函数是：y=x1+2x2y = x_{1} + 2x_{2}，其中(x1,x2)(x_{1},x_{2} )是输入特征，y是相应的标签。前提条件为了完成以下教程，我们需要：MXNet：安装教程Jupyter Notebookpip install jupyter数据准

2017-10-30 16:26:35 3425

翻译 MXNet官方文档中文版教程(5)：加载数据（Iterators）

文档英文原版参见Iterators - Loading data在本教程中，我们专注于如何将数据提供给训练或推断程序。 MXNet中的大多数训练和推断模块接受数据迭代器，因此简化了此过程，特别是在读取大型数据集时。这里我们讨论 API 规则和几个提供的迭代器。前提要求完成本教程，我们需要：MXNetOpenCV Python library, Python Requests, Matplot

2017-10-30 16:24:44 12050 1

翻译 MXNet官方文档中文版教程(4)：神经网络训练和推断（Module）

文档英文原版参见Module - Neural network training and inference训练神经网络涉及不少的步骤。我们需要知道如何提供输入训练数据，初始化模型参数，执行前向和后向传播，根据计算的梯度更新权重，模型检查等。在预测过程中，大部分步骤是重复的。所有这一切对于新手以及经验丰富的开发人员而言都是相当艰巨的。幸运的是，MXNet的module 包(简写为mod )模块化

2017-10-30 16:22:21 4937

翻译 MXNet官方文档中文版教程(3)：神经网络图（Symbol）

文档英文原版参见Symbol - Neural network graphs and auto-differentiation在前面的教程中，我们介绍了NDArray，MXNet中操作数据的基本数据结构。仅仅使用NDArray本身，我们就可以执行很多数学操作。实际上，我们也可以使用NDArray定义和更新一整个神经网络。NDArray支持命令式编程（用于科学计算），充分利用任何前端语言的本机控制。

2017-10-30 16:20:50 12343 2

翻译 MXNet官方文档中文版教程(2)：GPUCPU张量计算（NDArray）

文档英文原版参见NDArray - Imperative tensor operations on CPU/GPU在MXNet中，NDArray 是所有数学计算的核心数据结构。每个NDArray 代表了一个多维的，固定大小的齐次数组。如果你对python的科学计算包Numpy熟悉的话，你会发现mxnet.ndarray与numpy.ndarray在诸多方面十分相似。就像对应的NumPy数据结构，M

2017-10-30 16:19:23 10485 2

翻译 MXNet官方文档中文版教程(1)：教程（Tutorials）

最近开始尝试MXNet框架，官方文档已经更新，网上中文文档的翻译已经是之前版本。因此打算在学习过程中将最新版的官方文档翻译出来，以便今后自己和相关学习者作为学习参考。不足之处，尽请留言！官方文档链接：Tutorials教程这些教程介绍了一些深度学习的基本概念以及如何使用MXNet来实现他们。教程的基础部分包括使用数组，构建网络，加载/预处理数据等等。训练和推断部分讲解了线性回归的实现，使用MLP

2017-10-30 16:15:56 22562

原创论文阅读：《Understanding Convolution for Semantic Segmentation》

论文地址：https://arxiv.org/pdf/1702.08502.pdf概述本文主要是针对已有的FCN+CRF+Atrous convolution 中的上采样和dilated convolution 进行了改进，提出了替代的dense up-sampling convolution (DUC)和hybrid dilated convolution（HDC）。其优点是扩大网络的感受野，

2017-10-25 19:31:42 1465

原创论文阅读：《RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation》

论文地址：https://arxiv.org/pdf/1611.06612v3.pdf概述论文提出一种多阶段的提炼网络（RefineNet），使用long-range 残差连接，能够有效的将下采样中缺失的信息融合进来，从而产生高分辨率的预测图像。用这种方法可以将粗糙的高层语义特征和细粒度的底层特征进行融合。使用残差连接和identity mapping 的思想，能够实现端到端的训练。通过链式残差池

2017-10-25 19:19:37 15145

原创论文阅读：《Pyramid Scene Parsing Network》CVPR 2017

论文地址：https://arxiv.org/pdf/1612.01105.pdf 项目地址：https://github.com/hszhao/PSPNet概述场景解析的挑战在于无限制的开放词汇和不同场景，论文使用pyramid pooling module，实现基于不同区域的上下文集成，提出PSPnet，实现利用上下文信息的能力进行场景解析。本方法的提出取得了ImageNet scene

2017-10-25 18:29:06 1496

原创论文阅读：《DeepLab-v2: Semantic Image Segmentation 》

论文地址：https://arxiv.org/pdf/1606.00915.pdf概述DeepLabv2 是在DeeplabV1 的基础上又做了改进的。Deeplabv1 主要是在FCN 的基础上对vgg 网络进行fine tuning，并加上一个全连接的CRF，这样可以保证对FCN 得到的结果在局部细节上进行优化，从而实现在PASCALVOC 数据集上达到71.6%的准确率，成为当时的state

2017-10-25 12:59:27 13152 2

原创论文阅读：《Human Parsing with Contextualized Convolutional Neural Network》ICCV 2015

论文地址： https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Liang_Human_Parsing_With_ICCV_2015_paper.pdf概述论文主要是提出了一个local-to-global-to-local 的框架结构，主要目的是从低层加入情境化的信息，这个框架是将交叉层内容（cross-lay

2017-10-25 11:45:18 1714 3

原创论文阅读：《LIP: Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing》

数据集：http://hcp.sysu.edu.cn/lip 主要贡献提出了一个新的large-scale benchmark，以及一个测评服务器用支持进一步的人物解析研究，新的数据集共有50462 张图片，20 个分类标签（19个类别+背景）通过在新的数据集上的实验，详细分析之前state-of-the-art 的人物解析方法的优势和不足提出了一个自监督的，基于人体架构化的学习框架，主要是

2017-10-25 11:22:11 1543

原创论文阅读：《Fully Convolutional Networks for Semantic Segmentation》CVPR 2015

论文地址：https://arxiv.org/abs/1411.4038概述论文最大的贡献是提出了一种端到端（end-to-end）的，像素对像素（pixel-to-pixel）的，基于全卷积神经网络的语义分割方法。输入图片的大小可以是任意的，输出相应大小的结果，这不同于以往的需要对输入神经网络中的图像进行reshape 操作至固定大小的图片。实现全卷积神经网络的关键点在将原来卷积神经网络的最后全

2017-10-25 10:54:24 747

原创人体姿态估计数据集整理（Pose Estimation/Keypoint）

LSP地址：http://sam.johnson.io/research/lsp.html 样本数：2K关节点个数：14全身，单人FLIC地址：https://bensapp.github.io/flic-dataset.html样本数：2W关节点个数：9全身，单人MPII地址：http://human-pose.mpi-inf.mpg.de/样本数：25K关节点个数：16

2017-10-24 17:32:31 34166 3

原创论文阅读：《RMPE: Regional Multi-Person Pose Estimation》ICCV 2017

概述论文地址：https://arxiv.org/abs/1612.00137v3 项目主页：RMPE: Regional Multi-person Pose Estimation这篇论文是上海交大和腾讯优图的论文，被 ICCV 2017接收。它对于多人姿态估计的方法采用传统的自顶向下的方法，即先检测人，再识别人体姿态。检测使用的是SSD-512，识别人体姿态使用的是state-of-the-ar

2017-10-24 16:08:13 10555 2

原创论文阅读：《Associative Embedding:End-to-End Learning for Joint Detection and Grouping》

概述论文提出了一种single-stage，end-to-end的关节点检测和分组方法，这不同于以往的multi-stage的关节点检测方法，在MPII和COCO数据集上达到新的state-of-the-art的效果，超越最近的Mask RCNN和Google GMI。从人体姿态估计方法上属于bottom-up的方法，即先检测关节点，再对关节点进行分组。在COCO测试集上mAP达到0.655。尽管论

2017-10-23 19:58:05 4307

原创论文阅读：《Towards accurate multi-person pose estimation in the wild》CVPR 2017

网络框架论文采用top-down的结构，分为两个阶段: 第一阶段使用faster rcnn做detection，检测出图片中的多个人，并对bounding box进行image crop；第二阶段采用fully convolutional resnet对每一个bonding box中的人物预测dense heatmap和offset; 最后通过heatmap和offset的融合得到关键点的精

2017-10-23 19:49:37 7625

原创论文阅读：《Mask R-CNN》ICCV2017

概述Mask R-CNN是用于目标检测分割的框架，即对一张图片，既输出图片中已有的目标，还能为每一个实例生成一个高质量的分割掩码。一句话概括object instance segmentation = object detection + semantic segmentation。特点 1.mask R-CNN是在faster R-CNN的基础上，在每一个RoI都增加一个预测分割的 mask，

2017-10-23 19:38:50 4747

原创论文阅读：《Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields》CVPR 2017

概述本文承接CMP论文的框架结构，最大的创新点在于提出了一种PAF的方法，能够有效的针对多人进行姿态估计，同时在保证精度的情况下，可以做到实时的效果。传统的方法采用top-down的方法，即先检测人，然后对每一个人进行姿态估计，但是当人离得比较近的时候，检测人体的方法无效；并且人数越多，检测所花的时间约多，不能做到实时效果。因此本文采用bottom-up的方式，但是也利用了全局上下文信息。PAF文章

2017-10-23 19:24:22 11719 1

原创论文阅读：Deepcut&Deepercut:Joint Subset Partition and Labeling for Multi Person Pose Estimation

引言本篇一起介绍两篇相关文章—— 《DeepCut: Joint Subset Partition and Labeling for Multi Person Pose Estimation》 CVPR 2016 《DeeperCut: A Deeper, Stronger, and Faster Multi-Person Pose Estimation Model》 ECCV 2016Deep

2017-10-23 18:32:43 10724 7

原创论文阅读：《Structured Feature Learning for Pose Estimation》CVPR 2016

概述本文仍然是使用CNN，其创新点在于如何对关节之间的依赖进行建模，解决方法是在卷积层使用几何变换核。此外还提出了双向的树结构模型，这样每个关节的特征通道都可以接受其他关节点信息。网络架构/算法流程输入是一张RGB静态图片。经过CNN（论文中采用的CNN是VGG Net）,得到和关节个数数量相同的heatmap，然后这些heamap通过信息传递进行refined。信息传递的方式是使用双向树结构，按

2017-10-23 18:20:12 2455

原创论文阅读：《Stacked Hourglass Networks for Human Pose Estimation》ECCV 2016

概述本文仍然是使用全卷积神经网络，对给定的单张RGB图像，输出人体关键点的精确像素位置，使用多尺度特征，捕捉人体各关节点的空间位置信息。网络结构形似沙漏状，重复使用top-down到bottom-up来推断人体的关节点位置。每一个top-down到bottom-up的结构都是一个stacked hourglass模块。沙漏网络 Motivation：使用沙漏网络的目的是为了反复获取不同尺度下图

2017-10-23 18:07:03 11699 5

原创论文阅读：《Convolutional Pose Machines》CVPR 2016

概述本文使用CNN进行人体姿态估计，它的主要贡献在于使用顺序化的卷积架构来表达空间信息和纹理信息。顺序化的卷积架构表现在网络分为多个阶段，每一个阶段都有监督训练的部分。前面的阶段使用原始图片作为输入，后面阶段使用之前阶段的特征图作为输入，主要是为了融合空间信息，纹理信息和中心约束。另外，对同一个卷积架构同时使用多个尺度处理输入的特征和响应，既能保证精度，又考虑了各部件之间的远近距离关系。网络结构

2017-10-23 17:25:20 13845 15

原创论文阅读：《Flowing ConvNets for Human Pose Estimation in Videos》ICCV 2015

概述本文主要用CNN网络来进行人体姿态估计，加入了temporal 信息以提高精度。本文的四个贡献： 1. 提出了一个更深的CNN网络（相比于Alex-Net），不同于之前的回归坐标，而是回归heatmap，这样可以提高关节点定位的鲁棒性，并且更利于在训练过程中的可视化观察。 2. 提出一种空间融合层，用来学习隐式空间模型，即用来提取关节点之间的内在联系 3. 使用光流信息，用来对准

2017-10-23 17:06:55 7177 5

原创人体姿态估计综述（Human Pose Estimation Overview）

Part1：Single Person Pose Estimation2015 年之前的方法都是回归出精确的关节点坐标( x,y )，采用这种方法不好的原因是人体运动灵活，模型可扩展性较差。《Flowing ConvNets for Human Pose Estimation in Videos》ICCV 20152015 年 flow convnet 将姿态估计看作是检测问题,输出是 heatm

2017-10-23 16:50:50 58702 22

kitti12&15;_stereo_matching_datasets.txt

KITTI 2012/2015双目立体匹配(stereo matching)数据集百度云下载链接里面是一个txt文件，txt文件中有百度云下载链接，分别是（1）KITTI 2012 Stereo Matching Dataset：data_stereo_flow.zip；（2）KITTI 2015 Stereo Matching Dataset：data_scene_flow.zip

2019-10-13

红外与可见光图像配准算法（MATLAB版代码）

针对电气设备同一场景的红外与可见光图像间一致特征难以提取和匹配的问题，提出了一种基于斜率一致性的配准方法。首先通过数学形态学方法分别提取红外与可见光图像的边缘，得到粗边缘图像；然后通过SURF算法提取两幅边缘图像的特征点，根据正确的匹配点对之间斜率一致性的先验知识，进行特征点匹配；最后通过最小二乘法求得仿射变换模型参数并实现两幅图像的配准。资源为该算法的MATLAB版本，其中main.m是主函数，内附测试图片。

2018-05-05

ColorTransferBetweenImage实现代码

Color Transfer Between Image的MATLAB代码实现，内附测试图片

2017-03-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人