计算机视觉
ZeroZone零域
研究方向:计算机视觉/目标检测/深度学习(硕士在读)
展开
-
深度学习与计算机视觉[CS231N] 学习笔记(3.3):函数优化(梯度下降法)
首先,想象一下这个场景,当我们处在一个山坡上的某一点,我们想要以最近的距离、最短的时间到达坡底,我们应该怎么做呢? 将这个问题抽象出来,就是本文要讨论的梯度下降法。在高数的学习中,我们都知道,梯度是一个方向向量,他代表的是对应的函数数值变化最快的方向,因此,如果我们想要最快的获取到某函数的最小值,我们就可以采用梯度下降的方式来更新函数中的参数。 以线性回归为例,我们得到的损失方程可以看做是损失原创 2018-01-11 12:57:02 · 437 阅读 · 0 评论 -
论文解读:YOLOv3
摘要作者对YOLOv2进行了一些改进,使之在保持实时检测的同时,准确率又有所提升了。介绍作者说他这一年(18年)基本没干啥,就是打打电话,玩玩推特,偶尔还帮别人干点活。。然后因为只对YOLO做了一些改进,但是并没什么特别有意思的地方,因此就写了这一篇技术报告。The Deal作者说了,他们大部分的工作都是从别人那里吸取好的点子,同时训练了一个新的分类器网络(比别人的...原创 2018-09-13 21:55:24 · 360 阅读 · 0 评论 -
安装Caffe报错: Cannot load caffe2.python. Error... not
警告WARNING:root:This caffe2 python run does not have GPU support. Will run in CPU only mode.出现上面的问题的话, 首先看看是不是没有安装NCCL, 如果没有安装的话, 安装以后应该就能好使使用下面的指令测试caffe安装是否成功python -c 'from caffe2.python import ...原创 2018-10-03 19:34:23 · 3582 阅读 · 1 评论 -
Batch-Normalization深入解析
BN:总的来说,BN通过将每一层网络的输入进行normalization,保证输入分布的均值与方差固定在一定范围内,减少了网络中的Internal Covariate Shift问题,并在一定程度上缓解了梯度消失,加速了模型收敛;并且BN使得网络对参数、激活函数更加具有鲁棒性,降低了神经网络模型训练和调参的复杂度;最后BN训练过程中由于使用mini-batch的mean/variance每次都不同...原创 2018-10-22 19:18:32 · 606 阅读 · 0 评论 -
Caffe2-Detectron源码解读-数据载入
Coordinator 类由于 RoIDataLoader 类将 Coordinator 类对象作为成员变量, 因此我们先看一下这个类的作用和底层实现, 该类位于detectron/utils/coordinator.py文件中, 定义如下:#detectron/utils/coordinator.py# 从名字可以看出, 该类的作用主要是协调各个数据载入管道之间的信息同步# 实现上, ...原创 2018-10-28 22:35:08 · 569 阅读 · 3 评论 -
Detectron源码解读-roidb数据结构
roidb数据结构roidb的类型是list, 其中的每个元素的数据类型都是dict, roidb列表的长度为数据集的数量(即图片的数量), roidb中每个元素的详细情况如下表所示:for entry in roidb数据类型详细说明entry['id']int代表了当前image的img_identry['file_name']string表示当前图片的...原创 2018-10-28 22:36:34 · 1551 阅读 · 4 评论 -
Focal Loss for Dense Object Detection
文章: Focal Loss for Dense Object Detection作者: Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollár核心亮点(1) 分析并指出了One Stage方法精度不高的原因:极度不平衡的正负样本比例: anchor是一种类似sliding windows的选框方式, 这会使得...原创 2018-10-28 22:38:03 · 492 阅读 · 0 评论 -
SSD pytorch 源码demo报错: ValueError: not enough values to unpack (expected 2, got 0)
https://github.com/amdegroot/ssd.pytorch/issues/154#issuecomment-384856547将 detection.py 文件中第49行(行数可以因版本不同而不同):if scores.dim() == 0: continue改为if scores.size(0) == 0: continue...原创 2018-10-29 20:01:03 · 1998 阅读 · 1 评论 -
MaskRCNN-ICCV2017 论文解读
文章: MaskRCNN作者: Kaiming He, Georgia Gkioxari, Piotr Dollar, Ross Girshick备注: FAIR, ICCV best paper核心亮点1) 提出了一个简单,灵活,通用的实例分割模型框架MaskRCNN 在 FasterRCNN 的基础上进行改进, 在模型的head部分引入了一个新的mask预测分支, 在训练阶段, 该分...原创 2018-11-10 16:09:32 · 7314 阅读 · 1 评论 -
用Numpy实现一个简单的神经网络
本示例来自于PyTorch的官网上的一个warm-up小示例, 觉得很有代表性, 所有这里单独记录一下.对于numpy来说, 它对计算图, 深度学习, 梯度等等概念几乎是不知道的, 但是, 如果我们了解简单神经网络的具体结构, 那么我们就可以很轻易的用numpy来实现这个简单网络, 对此, 我们通常需要自己来实现前向计算和反向计算的逻辑, 下面我们来实现一个具有两层隐藏层的简单网络:impor...原创 2018-11-13 21:33:56 · 2114 阅读 · 3 评论 -
Speed Accuracy TradeOffs (CVPR, 2017)
title:sitemap: truecategories: 计算机视觉date: 2018-11-10 16:27:03tags:目标检测计算机视觉文章: Speed/accuracy trade-offs for modern convolutional object detectors作者: Jonathan Huang, Vivek Rathod, Chen Sun...原创 2018-11-12 12:59:22 · 446 阅读 · 0 评论 -
安装 maskrcnn-benchmark 报错command 'gcc' failed with exit status 1
command ‘gcc’ failed with exit status 1更换 gcc 版本.(太高不行, 太低也不行)建议使用4.9或者5.4版本的gcc.如果更换后, 会产生一大堆其他cpp文件错误, 则删除那些文件(我这里是在练习用的cpp文件夹下报错)...原创 2018-12-06 16:24:46 · 1472 阅读 · 1 评论 -
MaskrcnnBenchmark 源码解析-模型定义(modeling)之骨架网络(backbone)
源码文件不论是在训练脚本文件 train_net.py 还是在测试脚本文件 test_net.py 中, 都调用了 build_detection_model(cfg) 函数来创建模型, 该函数封装了模型定义的内部细节, 使得我们可以通过配置文件轻松的组合出不同类型的模型, 为了能够更好的了解模型的内部细节, 我们有必要知道这些模型是如何被定义, 又是如何组合到一起的, 为此我们需要对 Mask...原创 2018-12-14 16:38:59 · 9971 阅读 · 13 评论 -
You Only Look Once: Unified,Real-Time Object Detection
YOLOYOLO-9000YOLO-v3原创 2018-09-11 11:51:11 · 242 阅读 · 0 评论 -
深度学习与计算机视觉[CS231N] 学习笔记(3.2):Softmax Classifier(Loss Function)
在数学,尤其是概率论和相关领域中,Softmax函数,或称归一化指数函数,是逻辑函数的一种推广。它能将一个含任意实数的K维的向量zz“压缩”到另一个K维实向量α(z)\alpha(z)中,使得每一个元素的范围都在(0,1)}之间,并且所有元素的和为1。看到这里,我们就会自然的将Softmax函数与概率分布函数联系到一起,实际上,我们也正是这么做的。如下图所示,我们将原先的分类器对每一类别的预测分值原创 2018-01-10 17:28:05 · 990 阅读 · 0 评论 -
如何学习计算机视觉
本文的内容主要借鉴CSDN博主NodYoung的一篇文章,但是不知道什么原因,该博主的文章现已删除,这里,我根据自己的理解大致说明一下,对于一个初学小白来说,该如何学习计算机视觉。(有关计算机视觉入门的其它只是,可以阅读另一篇文章计算机视觉入门必读)这两年,计算机视觉似乎火了起来,计算机视觉的黄金时代真的到来了吗?生物医学、机械自动化、土木建筑等好多专业的学生都开始研究其在各自领域的应用,一个视觉交转载 2017-12-22 19:07:50 · 30037 阅读 · 10 评论 -
深度学习与计算机视觉[CS231N] 学习笔记(4.1):反向传播(Backpropagation)
在学习深度学习的过程中,我们常用的一种优化参数的方法就是梯度下降法,而一般情况下,我们搭建的神经网络的结构是:输入→权重矩阵→损失函数。如下图所示。 而在给定输入的情况下,为了使我们的损失函数值达到最小,我们就需要调节权重矩阵,使之满足条件,于是,就有了本文现在要介绍的深度学习中的一个核心方法——反向传播。光听名字可能不太好理解,下面我们用一个简单的例子来讲解反向传播是如何工作的(了解高原创 2018-01-11 15:15:28 · 973 阅读 · 0 评论 -
深度学习与计算机视觉[CS231N]学习笔记(2.1):图像分类
问题目标图像分类是计算机视觉领域中一个较为基础的问题,它的目标是根据事先定义好的图像类别,将输入图像划分到对应的类别当中去。(目前,在最著名的ILSVRC挑战赛当中,计算机的分类准确度已经可以超过人类。)面临的挑战当给出下面一幅图片,我们可以瞬间指出这是一只猫,这是由于我们的大脑经过上亿年的发展,已经建立起了一个完善强大的视觉系统,但是,对于计算机来说,这是并非是一件易事。原创 2018-01-09 15:57:49 · 739 阅读 · 0 评论 -
深度学习与计算机视觉[CS231N] 学习笔记(2.2):K-近邻算法(K-Nearest Neighbors)
第一个分类器算法:最近邻(Nearest Neighbor)首先我们介绍第一个分类器算法——最近邻。这是一种十分简单且易于理解的算法,算法主要分两步: 1. 存储所有的数据集和相应的标签 2. 将数据集中与输入图片最相似的图片标签作为预测结果输出 (这里有一点没有说透,就是“相似”的定义,后文会介绍)下面我们先来举个例子,这里使用的是CIFAR10数据集,这是一个较小的数据集,它原创 2018-01-09 17:09:05 · 754 阅读 · 0 评论 -
深度学习与计算机视觉[CS231N] 学习笔记(2.3):线性回归(Linear Classification)
本次我们基于线性回归的图像分类算法,采用的数据集合是CIFAR10,具体信息如下图所示。 参数化方法:线性回归如下图所示,我们将含有猫的图像数据设为x,这里的x是一个列向量,他总共有32×32×3个元素(是一个3072行1列的列向量),这里的3代表的是存储彩色图像所用到的自然光的三原色的值(注意自然光三原色指的是RGB,与颜料三原色不同)。而这里的W是某个参数(也可以理解为权重),向原创 2018-01-09 19:56:46 · 1026 阅读 · 0 评论 -
深度学习与计算机视觉[CS231N] 学习笔记(3.1):损失函数(Loss Function)
在上一节的线性回归的例子中,我们通过一定的矩阵运算获得了每张图像的最终得分(如下图),可以看到,这些得分有些是比较好的预测,有些是比较差的预测,那么,具体如何定义“好”与“差”呢?这就需要引入“损失函数”的相关概念了。损失函数关于损失函数的精准定义可以在维基百科或者百度百科里查到,但是这种定义不太容易理解,这里我用一种比较通俗的说法来介绍损失函数:损失函数就是可以准确的告诉我们,分原创 2018-01-10 16:38:06 · 1637 阅读 · 0 评论 -
深度学习与计算机视觉[CS231N]:计算机视觉与深度学习/卷积神经网络
第一讲 | 视觉识别和卷积神经网络简介 斯坦福大学开设的“用于视觉识别的卷积神经网络(YouTube链接)”(Convolutional Neural Networks for Visual Recognition)课程,主要关注的是视觉识别中一个十分重要的问题——图像分类 。这个问题虽然看起来具有很大的限制性和人为因素,但是实际上,该研究方向可以应用到许多不同的领域,不管是在工业领域还是原创 2018-01-01 21:09:02 · 1207 阅读 · 0 评论 -
图片描述(image cpationing) 源码实现——让计算机用简短的句子描述一张图片
自动生成图片描述:NeuralTalk2一、基本信息NeuralTalk2是斯坦福计算机视觉人工智能实验室的一个项目,利用循环神经网络(RNN)和卷积神经网络(CNN)来描述图片内容,NeuralTalk2 比第一版训练速度更快(使用了GPU),并且具有更好的性能表现。 本篇博客注重该项目的源码实现部分,论文解读部分后续会上传。下面是该项目是一些资源连接官网 http://cs...原创 2018-03-08 21:45:27 · 2518 阅读 · 1 评论 -
论文解读:DenseCap: Fully Convolutional Localization Networks for Dense Captioning
本篇论文解读的排版主要参见原文的格式,针对原文中的每一个小节进行展开,有的是对原文的一个提炼和简单概括,有的是对原文中涉及但是又没有详细介绍的技术的补充和说明。 原文连接:https://cs.stanford.edu/people/karpathy/densecap/ 作者个人主页:https://cs.stanford.edu/people/jcjohns/ PS:本篇博文不是对原文的简...原创 2018-03-29 20:46:01 · 3318 阅读 · 4 评论 -
源码实现:DenseCap: Fully Convolutional Localization Networks for Dense Captioning
本篇博文是对论文DenseCap的源码实现,作者是斯坦福的Justin Johnson 项目地址:https://cs.stanford.edu/people/karpathy/densecap/ 源码地址:https://github.com/jcjohnson/densecap 论文地址:http://arxiv.org/abs/1511.07571注意事项:源码是15写的,所以使用...原创 2018-04-28 14:22:49 · 716 阅读 · 1 评论 -
faster rcnn训练过程出现loss=nan的解决办法
出现了loss=nan说明模型发散,此时应该停止训练。 出现这种错误的情况可能有以下几种,根据你自己的情况来决定。1、GPU的arch设置的不对打开./lib/setup.py文件,找到第130行,将gpu的arch设置成与自己电脑相匹配的算力,这里举个例子,如果你用的是GTX1080,那么你的算力就是6.1,此时就需要将-arch=sm_52改成-arch=sm_61。 可以在这个网...原创 2018-06-15 11:05:31 · 10474 阅读 · 8 评论