深度学习
Tom Hardy
关注计算机视觉、机器学习、深度学习,公众号【3D视觉工坊】【计算机视觉工坊】
展开
-
SDOD: Real-time Segmenting and Detecting 3D Objects by Depth(实时3D检测与分割)
作者:Tom HardyDate:2020-2-24来源:SDOD:基于depth的实时3D检测与分割主要思想与创新点大多数现有的实例分割方法只关注2D对象,不适用于三维场景,如自动驾驶。本文提出了一种将实例分割和目标检测分为两个并行分支的模型,将对象深度离散为“深度类别”(背景设置为0,对象设置为[1,K]),将实例分割任务转化为像素级分类任务。mask分支预测像素级的“深度类别”,...原创 2020-02-25 21:36:48 · 884 阅读 · 1 评论 -
汇总|基于3D点云的深度学习方法
作者:Tom HardyDate:2020-2-18来源:汇总|基于3D点云的深度学习方法本文参考:https://arxiv.org/pdf/1912.12033.pdf前言三维数据通常可以用不同的格式表示,包括深度图像、点云、网格和体积网格。点云表示作为一种常用的表示格式,在三维空间中保留了原始的几何信息,不需要任何离散化。因此,它是许多场景理解相关应用(如自动驾驶和机器人)的首...原创 2020-02-18 12:28:04 · 1780 阅读 · 0 评论 -
DSGN:基于深度立体几何网络的3D目标检测(香港大学提出)
作者:Tom HardyDate:2020-2-17来源:DSGN:基于深度立体几何网络的3D目标检测(香港大学提出)原文链接:https://arxiv.org/pdf/2001.03398.pdf主要思想与创新点大多数最先进的三维目标检测器严重依赖激光雷达传感器。由于在三维场景中的预测不准确,基于图像的方法与基于激光雷达的方法在性能上仍有很大差距。本文提出了深度立体几何网络(DS...原创 2020-02-17 17:20:01 · 1291 阅读 · 0 评论 -
深度学习实现缺陷检测算法汇总
作者:Tom HardyDate:2020-1-6来源:总结|深度学习实现缺陷检测前言缺陷检测是工业上非常重要的一个应用,由于缺陷多种多样,传统的机器视觉算法很难做到对缺陷特征完整的建模和迁移,复用性不大,要求区分工况,这会浪费大量的人力成本。深度学习在特征提取和定位上取得了非常好的效果,越来越多的学者和工程人员开始将深度学习算法引入到缺陷检测领域中,下面将会介绍几种深度学习算法在缺陷...原创 2020-02-17 16:51:08 · 27406 阅读 · 4 评论 -
VoxelNet:End-to-End Learning for Point Cloud Based 3D Object Detection阅读笔记
前言本文首发于公众号【3D视觉工坊】,原文请见VoxelNet阅读笔记主要思想和创新点三维点云中目标的精确检测是许多应用中的核心问题,如自主导航、管家机器人和增强/虚拟现实等。为了将高度稀疏的激光雷达点云与区域建议网络(RPN)连接,大多数现有的工作都集中在手工制作的特征表示上,例如,鸟瞰图投影。这项工作消除了人工特征工程对三维点云的需求,提出了VoxelNet,一种将特征提取和box预测...原创 2020-02-11 12:46:19 · 1128 阅读 · 0 评论 -
RGPNET: A real-time general purpose semantic segmentation(复杂环境下实时通用语义分割网络)
本文首发于公众号【3D视觉工坊】,原文请见RGPNET: 复杂环境下实时通用语义分割网络一、 主要思想本文提出了一种新的实时通用语义分割体系结构RGPNet,在复杂环境下取得了显著的性能提升。RGPNet由一个轻量级的非对称编码器-解码器和一个适配器组成。适配器有助于从编码器和解码器之间的多层分布式表示中保留和细化抽象概念。它也有助于从较深层到较浅层的梯度流动。大量实验表明,与目前最先进的语义...原创 2020-02-08 14:50:51 · 1024 阅读 · 0 评论 -
MSFNet:多重空间融合网络进行实时语义分割(北航和旷视联合提出)
前言本文首发于公众号【3D视觉工坊】,原文请见MSFNet:多重空间融合网络进行实时语义分割(北航和旷视联合提出),更多干货获取请关注公众号~主要内容实时语义分割是一项具有挑战性的任务,因为需要同时考虑效率和性能,其在自动驾驶、机器人等工业应用中发挥着重要的作用。针对这一复杂的任务,论文提出了一种高效的卷积网络结构:多重空间融合网络(MSFNet)来完成快速和准确的感知。MSFNet在多特征...原创 2020-02-08 14:40:25 · 1582 阅读 · 0 评论 -
医学图像分析领域算法汇总
前言本文首发于公众号【3D视觉工坊】,原文请见汇总|医学图像分析领域论文,更多干货获取请关注公众号~医学图像分析相关期刊会议汇总1、医学图像分析 (MedIA)2、IEEE 医学图像学报 (IEEE-TMI)3、IEEE 生物医学工程学报(IEEE-TBME)4、IEEE 生物医学与健康信息学杂志 (IEEE-JBHI)5、国际计算机辅助放射学和外科学杂志 (IJCARS)6、医学...原创 2020-01-15 10:17:36 · 5290 阅读 · 0 评论 -
3D人脸重建算法汇总
前言本文首发于公众号【3D视觉工坊】,原文请见3D人脸重建算法,更多干货获取请关注公众号~1、Nonlinear 3D Face Morphable Model(2018)论文链接:https://arxiv.org/abs/1804.03786项目链接:http://cvlab.cse.msu.edu/project-nonlinear-3dmm.html主要思想:三维变形模型(3DM...原创 2019-12-30 13:26:41 · 7505 阅读 · 0 评论 -
6D姿态估计算法汇总(下)
前言本文首发于公众号【3D视觉工坊】,更多干货获取请关注公众号~10、PoseNet: A Convolutional Network for Real-Time 6-DOF Camera Relocalization论文链接:https://arxiv.org/abs/1505.07427代码链接:http://mi.eng.cam.ac.uk/projects/relocalisati...原创 2019-12-28 09:29:06 · 3762 阅读 · 1 评论 -
6D姿态估计算法汇总(上)
前言本文首发于公众号【3D视觉工坊】,更多干货获取请关注公众号~1、DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion (CVPR2019)原文链接:https://arxiv.org/abs/1901.04780代码链接:https://github.com/j96w/DenseFusion主要思想:用于从R...原创 2019-12-28 09:17:50 · 9311 阅读 · 3 评论 -
计算机视觉学习资料汇总(超多干货)
前言本资料首发于公众号【3D视觉工坊】,更多干货请关注公众号后台回复关键字获取~(一)基础操作Linux学习网站Linux中国:https://linux.cn/鸟哥的linux私房菜:http://linux.vbird.org/Linux公社:https://www.linuxidc.com/学习书籍《鸟哥的Linux私房菜》《Linux命令行与shell脚本编程大全》...原创 2019-12-21 14:18:01 · 3585 阅读 · 3 评论 -
3D目标检测论文汇总
一、单目图像下的3D目标检测1、YOLO3D2、SSD-6D3、3D Bounding Box Estimation Using Deep Learning and Geometry4、GS3D:An Effcient 3D Object Detection Framework for Autonomous Driving5、Deep MANTA: A Coarse-to-fine Ma...原创 2019-12-14 20:55:52 · 1829 阅读 · 0 评论 -
Tensorflow训练mnist数据集源代码解析
from tensorflow.examples.tutorials.mnist import input_dataimport tensorflow as tffrom PIL import Imageimport numpy as npimport matplotlib.pyplot as plt import scipy.miscimport matplotlib.ima...原创 2018-05-09 20:32:21 · 930 阅读 · 0 评论 -
Tensorflow训练CIFAR10源代码
最近看到tensorflow训练cifar10数据集,说实话相比于mnist数据集,cifar10有了一个质的飞跃,从单通道灰度图像转变到三通道彩色图像。cifar10下面来简单介绍下cifar10数据集,该数据集共有60000张彩色图像,这些图像是32*32*3,分为10个类,每类6000张图。这里面有50000张用于训练,构成了5个训练批,每一批10000张图;另外10000用于测...原创 2018-05-09 21:56:51 · 2463 阅读 · 0 评论 -
Tensorflow基于mnist数据集实现AlexNet
本博客是【卷积神经网络-进化史】的第一部分《从LeNet到AlexNet》如需转载,请附上本文链接:http://blog.csdn.net/cyh_24/article/details/51440344更多相关博客请猛戳:http://blog.csdn.net/cyh_24原创 2018-05-10 14:17:25 · 1455 阅读 · 2 评论 -
Tensorflow实现VGG网络
VGG介绍VGGNet 是牛津大学计算机视觉组(Visual Geometry Group)和 Google DeepMind 公司的研究员一起研发的的深度卷积神经网络,在 ILSVRC 2014 上取得了第二名的成绩,将 Top-5错误率降到7.3%。VGGNet 探索了卷积神经网络的深度与其性能之间的关系,通过反复堆叠3´3的小型卷积核和2´2的最大池化层,VGGNet 成功地构筑了1...原创 2018-05-10 16:21:10 · 3261 阅读 · 3 评论 -
激活函数、防止过拟合方法、加速训练方法、数据增强
前言关于深度学习,看了许久,但是一直没有找个时间把相关知识点总结下来,今天特意督促自己写下所学内容,如有错误,还望指出。关于深度学习主要介绍以下几点:激活函数、防止过拟合方法、加速训练的方法激活函数深度学习中的激活函数主要有sigmoid、tanh、ReLu、Maxout函数等。SigmoidTanhReLuMaxout防止过拟合防止过拟合方法主要有增加训...原创 2018-05-10 20:37:54 · 9001 阅读 · 0 评论 -
基于keras和tensorflow的yolo3物体检测
源代码链接keras-yolo3-master 可以直接运行,基于tensorflow-1.2.0 +keras 2.1.2原创 2018-05-11 09:57:09 · 8577 阅读 · 17 评论 -
CGAN-条件生成式对抗网络(附源代码,可以直接运行)
简介所谓CGAN,就是conditional Gan,针对GAN本身不可控的缺点,加入监督信息,指导GAN网络进行生成。关于GAN,可以参考这篇博客,GAN算法讲解。不同之处CGAN和GAN唯一不同处就是,CGAN是在条件下的概率,y就是加入的监督信息,比如说MNIST数据集可以提供数字label信息,人脸生成可以提供性别、是否微笑、年龄等信息。从下面的公式可以看出,CGAN和GAN几...原创 2018-06-02 21:55:38 · 13160 阅读 · 11 评论 -
CycleGAN算法原理(附源代码,可直接运行)
前言CycleGAN是在今年三月底放在arxiv(论文地址CycleGAN)的一篇文章,文章名为Learning to Discover Cross-Domain Relations with Generative Adversarial Networks,同一时期还有两篇非常类似的DualGAN(论文地址:DualGAN)和DiscoGAN(论文地址:DiscoGAN),简单来说,它们的功能...原创 2018-06-03 10:31:37 · 48152 阅读 · 20 评论 -
深度学习图像标注工具
深度学习(目标检测。图像分割等)图像标注工具汇总 ...转载 2018-06-03 14:41:13 · 3271 阅读 · 0 评论 -
深度学习中常用的数据集
1.MNIST手写数字识别,深度学习入门级数据集。包含60000个训练数据及10000个测试数据,一共有0~9个数字,共分为10类,图像大小为28x28,灰度级图像,数据集大小50M。 下载链接:MNIST数据集2.CIFAR-10入门级的彩色图像,有名的图像识别数据集,图像大小为32x32x3,包含 50000张训练数据,10000张测试数据,共分为10类,数据集大小170M。 ...原创 2018-06-03 19:27:26 · 1501 阅读 · 0 评论 -
细粒度图像识别算法Mask-CNN
1 简介传统的图像识别一般都是识别花、鸟、汽车等不同类别物体,而细粒度图像识别则是要识别同一类物体下的不同子类。举个例子,识别一张图片是猫、狗、汽车还是飞机就是传统的图像识别,而识别一张图片是贵宾犬、边境牧羊犬、吉娃娃还是斗牛犬,则是细粒度图像识别。不同的犬类相似性一般都很高,比如下面的哈士奇和阿拉斯加雪橇犬,如果事先不知道它们有差别的部位,很难正确识别。现在图像识别大都使用卷积神经网络CN...转载 2018-05-16 18:52:13 · 5537 阅读 · 6 评论 -
深度学习之艺术风格迁移
深度学习之艺术风格迁移 近年来,由深度学习所引领的人工智能技术浪潮,开始越来越广泛地应用到社会各个领域。这其中,人工智能与艺术的交叉碰撞,不仅在相关的技术领域和艺术领域引起了高度关注。以相关技术为基础而开发的各种图像处理软件和滤镜应用更是一推出就立刻吸引了海量用户,风头一时无两。在这各种神奇的背后,最核心的就是基于深度学习的图像风格迁移(style transfer)。本chat就是介绍一...原创 2018-05-24 20:12:58 · 6548 阅读 · 11 评论 -
Overfeat图片分类、定位、检测
一、相关理论本篇博文主要讲解来自2014年ICLR的经典图片分类、定位物体检测overfeat算法:《OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks》,至今为止这篇paper,已然被引用了几百次,把图片分类、定位、检测一起搞,可见算法牛逼之处非同一般啊。开始前,先...转载 2018-06-12 19:01:07 · 493 阅读 · 0 评论 -
SPPNet算法解析
前言沿着RCNN的思路,我们继续探索目标检测的痛点,其中RCNN使用CNN作为特征提取器,首次使得目标检测跨入深度学习的阶段。但是RCNN对于每一个区域候选都需要首先将图片放缩到固定的尺寸(224*224),然后为每个区域候选提取CNN特征。容易看出这里面存在的一些性能瓶颈:速度瓶颈:重复为每个region proposal提取特征是极其费时的,Selective Search对于每幅图...转载 2018-06-12 20:44:10 · 468 阅读 · 0 评论 -
Faster RCNN算法解析(附源代码,可以直接运行)
一、前言知识1、基于Region Proposal(候选区域)的深度学习目标检测算法Region Proposal(候选区域),就是预先找出图中目标可能出现的位置,通过利用图像中的纹理、边缘、颜色等信息,保证在选取较少窗口(几千个甚至几百个)的情况下保持较高的召回率(IoU,Intersection-over-Union)。2、什么是IoU?Intersection over Un...原创 2018-05-30 15:22:48 · 50798 阅读 · 17 评论 -
SSD物体检测(附源代码,可以直接运行)
关于SSD算法,可直接参考SSD物体检测论文解析 这里只给出SSD物体检测源代码,代码基于谷歌开源的Object Detection Api,可以直接运行。import numpy as npimport osimport six.moves.urllib as urllibimport sysimport tarfileimport tensorflow as tfimpo...原创 2018-05-30 16:36:22 · 4076 阅读 · 1 评论 -
L0、L1与L2范数
前言在深度学习中,监督类学习问题其实就是在规则化参数同时最小化误差。最小化误差目的是让模型拟合训练数据,而规则化参数的目的是防止模型过分拟合训练数据。参数太多,会导致模型复杂度上升,容易过拟合,也就是训练误差小,测试误差大。因此,我们需要保证模型足够简单,并在此基础上训练误差小,这样训练得到的参数才能保证测试误差也小,而模型简单就是通过规则函数来实现的。规则化项可以是模型参数向量的范数。如:L...原创 2018-06-08 08:37:45 · 341 阅读 · 0 评论 -
凸函数和凸优化
前言凸函数一直是一个头疼的事,并不是凸函数有多难,而是凸函数的定义一直是个模棱两可的概念,博主也是经常看了就忘,因此为了方便记忆,对凸函数及凸优化相关定义进行总结。 凸函数图像: 根据函数图像更加清晰地辨别凸函数的形状,然后对定义的认识才能更加的清晰。凸函数图像如下图所示: 凸函数定义: 设x1x1x_1和x2x2x_2为函数f(x)定义域内的任意两个实数,且x1x1x_1 &lt...原创 2018-06-08 10:48:49 · 1993 阅读 · 1 评论 -
深度学习中的动量
动量的优点虽然随机梯度下降仍然是非常受欢迎的优化方法,但其学习过程有时会很慢。动量方法 (Polyak, 1964) 旨在加速学习,特别是处理高曲率、小但一致的梯度,或是带噪声的梯度。 动量算法积累了之前梯度指数级衰减的移动平均,并且继续沿该方向移动。 动量的效果如下图所示。 动量的主要目的是解决两个问题: Hessian 矩阵的病态条件和随机梯度的方差。我们通过此图说明动量如何克服这两...原创 2018-06-08 16:35:23 · 11078 阅读 · 1 评论 -
深度学习之自适应学习率算法
前言神经网络研究员早就意识到学习率肯定是难以设置的超参数之一,因为它对模型的性能有显著的影响。损失通常高度敏感于参数空间中的某些方向,而不敏感于其他。 动量算法可以在一定程度缓解这些问题,但这样做的代价是引入了另一个超参数。在这种情况下,自然会问有没有其他方法。如果我们相信方向敏感度在某种程度是轴对齐的,那么每个参数设置不同的学习率,在整个学习过程中自动适应这些学习率是有道理的。Delta-b...原创 2018-06-08 18:29:07 · 25143 阅读 · 0 评论 -
深度学习之KL散度
前言最近在看GAN相关的文章,经常提到KL散度这一概念,为了加深印象以及方便复习,特意写在博客上。KL散度用来做什么?KL散度的用途:比较两个概率分布的接近程度。 在统计应用中,我们经常需要用一个简单的,近似的概率分布f∗f∗f^*来描述 观察数据 DD或者另一个复杂的概率分布fff。这个时候,我们需要一个量来衡量我们选择的近似分布 f∗f∗f^*相比原分布fff究竟损失了多少信...原创 2018-06-09 10:21:50 · 4245 阅读 · 0 评论 -
谷歌Deep Dream解析(附源代码,可以直接运行)
介绍2015年Google发布了一个很有意思的东西,叫做Deep Dream,网上瞬间掀起了Deep Dream的热潮,各种各样有着Deep Dream效果的图片漫天飞,下面就直观来看下什么是Deep Dream。 由于这些图片充满着幻觉和梦境,所以这个算法被称为Deep Dream。这个算法的由来非常有意思,因为它是意外得到的效果。 我们知道神经网络在图像分类上取得了显著的进展...原创 2018-06-02 10:53:02 · 31679 阅读 · 4 评论 -
keras训练cifar10数据集源代码
前言对CIFAR-10 数据集的分类是机器学习中一个公开的基准测试问题,其任务是对一组大小为32x32的RGB图像进行分类,这些图像涵盖了10个类别: 飞机, 汽车, 鸟, 猫, 鹿, 狗, 青蛙, 马, 船以及卡车。 首先来看下cifar10数据集:这里面一共有五个训练文件,一个测试文件。# -*- coding: utf-8 -*-"""Created on Sun...原创 2018-06-24 12:11:28 · 2097 阅读 · 1 评论 -
深度生成模型
前言有监督学习(也叫深度判别模型)逐渐摘取完了深度学习这棵大树的低层果实,摘取更高层的果实就要通过深度生成模型(无监督学习)。在这里主要介绍一些主流的深度生成模型。1.深度置信网络关于这块内容请参考RBM和深度置信网络。2.深度波尔兹曼机和受限玻尔兹曼机不同,波尔兹曼机的每层的元素不仅仅和相邻层存在联系,同层中的每个元素同样也有联系。关于这方面内容请参考深度波尔兹曼机。...原创 2018-06-09 14:31:59 · 2480 阅读 · 0 评论 -
循环神经网络RNN(很简洁的讲解)
介绍循环神经网络(recurrent neural network)或 RNN (Rumelhart et al., 1986c) 是一类用于处理序列数据的神经网络。就像卷积网络是专门用于处理网格化数据 X(如一个图像)的神经网络, 循环神经网络是专门用于处理序列 x(1)x(1)x^{(1)}, …. x(T)x(T)x^{(T)} 的神经网络。正如卷积网络可以很容易地扩展到具有很大宽度和...原创 2018-06-09 17:01:29 · 4599 阅读 · 0 评论 -
LSTM和GRU
前言传统的RNN到后期会出现梯度消失现象,前面的内容到后面已经没有办法get到,为此,LSTM和GRU诞生了。LSTM长短期记忆模型(long-short term memory)是一种特殊的RNN模型,是为了解决RNN模型梯度弥散的问题而提出的;在传统的RNN中,训练算法使用的是BPTT,当时间比较长时,需要回传的残差会指数下降,导致网络权重更新缓慢,无法体现出RNN的长期记忆的...转载 2018-06-09 20:55:40 · 2043 阅读 · 0 评论 -
深度可分离卷积结构(depthwise separable convolution)计算复杂度分析
前言这个例子说明了什么叫做空间可分离卷积,这种方法并不应用在深度学习中,只是用来帮你理解这种结构。在神经网络中,我们通常会使用深度可分离卷积结构(depthwise separable convolution)。这种方法在保持通道分离的前提下,接上一个深度卷积结构,即可实现空间卷积。接下来通过一个例子让大家更好地理解。算法原理假设有一个3×3大小的卷积层,其输入通道为16、输出...转载 2018-06-24 20:28:07 · 5864 阅读 · 0 评论