自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Sundrops的专栏

deep learning

  • 博客(112)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 Maxout netword and and NIN(Network in Network)

转载自论文笔记 《Maxout Networks》 && 《Network In Network》,有少量补充各用一句话概括常规卷积层: conv→relumaxout: several conv(full)→maxNIN: serveral conv→relu→conv(1x1)→relu具体一点常规卷积层:conv→reluconv: conv_out=∑(...

2019-01-13 15:25:46 275

原创 Python 的 import 机制

转载自[Python 的 import 机制](https://loggerhead.me/posts/python-de-import-ji-zhi.html)

2019-01-11 14:28:27 234

原创 Python模块搜索路径

Python模块搜索路径

2019-01-11 14:06:15 360

原创 strided convolution vs pooling

strided convolution vs pooling

2019-01-04 11:28:49 4946 2

原创 DenseNet记录

MotivationResnet的特征有重复,测试时随机去掉一些residual block,对精度的影响很小Resnet的变种InceptionNet、ResNext等是扩宽网络的width来提升性能基于上,densenet利用feature reuse的思想来提升网络性能,每一层的输入都包含之前的输入层,如果这样就会导致channel越来越大,但因为特征得到了复用,因此每一层的cha...

2019-01-01 20:10:55 775

原创 Mask RCNN细节记录

精度问题在FPN论文中有个表格显示 C5+2fc要比C4+C5差很多,这里的原因一是C5+2fc的stride为32,feature map太小了,anchor数量也少,RPN的召回率太低了,第二个原因应该是RoIPooling造成的偏差影响更大了,因为stride太大了(这个原因待定,不知道对box分支的影响有多大,但可以肯定的是对mask 分支影响很大,下面会细讲)下面这个表格来自Ma...

2018-12-20 16:40:54 961

原创 Deformable ConvNets v2: More Deformable, Better Results

之前介绍过dai老师的DCN v1Deformable Convolutional Networks解读,现在出了V2效果更赞,实验分析也很充分。分析DCNEffective receptive fields视野域中每个点对响应的不同,有效视野域即为输入扰动后对输出的影响程度。比如求conv2上某一位置的有效视野域,那就依次扰动图像观察该位置处的输出变化,导致输出变化剧烈的像素点它的...

2018-12-11 13:56:32 1295 1

原创 Resnet实现细节记录

Resnet# 注意BasicBlock和Bottleneckdef resnet18(pretrained=False, **kwargs): model = ResNet(BasicBlock, [2, 2, 2, 2], **kwargs) return modeldef resnet34(pretrained=False, **kwargs): model =...

2018-12-10 16:25:43 4578

原创 Revisiting RCNN: On Awakening the Classification Power of Faster RCNN

之前听过该文作者Yunchao Wei给的一个talk,当时仔细思考这篇论文,只是感觉加了参数肯定会变好呀,但是实际上该文在探索检测任务中分类和定位的关系。实际上,检测任务中有很多值得探讨的东西,比如之前博客讲过的一篇论文在探究训练和测试尺寸一致的问题,这些点看似都很小,但是我之前一直都是猜测得出结论,没有仔细探究过,分割也有这样的问题。还有就是Multi Task的好处与坏处,比如分割中前背景...

2018-12-06 11:52:35 1885 4

原创 End-to-End Learning of Motion Representation for Video Understanding

本文TVNet(Total Variable)是在TV-L1的基础上,改变一些操作变成可以训练且速度提高。

2018-11-25 14:33:19 464

原创 Graph RCNN解读

这个十月一堆事,心情也比较烦闷,就一直没有动笔写blog,之前一直在做scene graph的生成,然后最近恰好看到graph-rcnn这篇很不错的文章,就解读做个记录Framework以往做scene graph generation,基本都是在faster rcnn基础上检测出图片的物体后,两两配对识别他们的关系,这样做是很有效但是很低效,毕竟并不是所有物体都有关系的,这样做太耗时间了...

2018-10-24 16:29:57 2281

原创 [强化学习-7] 模型和规划(model and planning)

之前的博客都在讲从之前的experience中学习policy或者value function,这一篇博客讲解从之前的experience中学习model何为model一句话总结就是状态转移概率和奖励Learning a model状态转移概率s, a → s‘可以看作是一个density estimation问题,而奖励s, a → r可以看做是regress...

2018-09-07 11:40:48 958

原创 [强化学习-6] 策略梯度

强化学习的目标是学习一个策略来获得最大的累计奖励,之前的几篇博客是value-based的方法,即先估计状态价值V(s)或者状态动作价值Q(s, a),然后根据这些估值得到策略,而本文要讲一下policy-based的方法。Policy-based 简介value based中,有了Q值后就可以根据epsilon greedy进行策略选择,但是这有个问题就是说这个策略是确定性策...

2018-09-04 18:52:12 3182

原创 [强化学习-5] 值函数近似

前几篇博客讲了如何进行值函数估计,估计完之后这些结果怎么保持呢,状态动作空间很小的就存在表中,用的时候查表获取v(s)和Q(s, a),但当状态空间是高维连续时,需要储存的东西就太多了,这个表就不行了,这时我们会采用函数逼近(function approximation)的方式逼近值函数: 一般的函数逼近有Linear combinations of features(可微) N...

2018-09-01 14:44:46 3431

原创 [强化学习-4] 蒙特卡洛和时序差分法-控制

蒙特卡洛

2018-08-31 16:47:04 1722

原创 [强化学习-3] 蒙特卡洛和时序差分法-预测

上一次我们在讲解值函数估计时用了DP,这次采用蒙特卡洛和时序差分

2018-08-29 19:57:34 1890

原创 [强化学习-2] DP-值估计和策略控制

上一篇博客讲了强化学习中的几个基本概念,其中推导的贝尔曼方程是一个很重要的部分。在上一篇博客里也说过MRP里的贝尔曼方程可以通过求解矩阵直接得到收敛后的state-value function,但是计算复杂度高,我们这节采用动态规划的方式求解预测问题定义:MRP或者给定策略π的MDP,求出状态价值函数v(s)/vπ(s)v(s)/vπ(s)v(s)/v_\pi(s) 例子:出...

2018-08-22 15:15:35 1523

原创 [强化学习-1] MP、MRP、MDP和Bellman equation

最近又开始重新学习强化学习了,记录一下历程MP(马尔科夫过程)定义:S是有限状态集合,P是状态转移概率矩阵 例子: 我们将一次有限步数的实验称作一个单独的episode 1. C1 C2 Pass Sleep 2. C1 FB FBMRP(马尔科夫奖励过程)定义:比MP多了个reward,只要达到某个状态会获得相应奖励R,γ是折扣因子,一个episode中越...

2018-08-21 17:39:48 6171

原创 朴素贝叶斯(NB)、逻辑回归(LR)、隐马尔科夫模型(HMM)、条件随机场(CRF)

一直在搞CNN/RNN,对传统的知识了解一直不够,今天恰好看一篇论文需要CRF的知识,就借机都学习一下梗概朴素贝叶斯:生成式模型,条件独立 —> 序列形式 隐马尔科夫模型 —> 图形式 通用有向图模型逻辑回归:判别式模型,条件不独立 —> 序列形式 线性链条件随机场 —> 序列形式 通用条件随机场朴素贝叶斯贝叶斯公式 P(Y|X)=...

2018-07-22 13:57:04 7668

原创 Scene Graph Generation by Iterative Message Passing解读

lifeifei老师团队在发布了Visual Genome数据集后,又在Scene Graph Generation做的新的创新关于Scene Graph Generation就不再赘述,在上一篇neural motif介绍过,neural motif比这篇晚一些,效果也好一些Image to Scene Graph现状Lu et al: Visual Rel...

2018-07-09 20:57:47 6746 5

原创 Neural Motifs: Scene Graph Parsing with Global Contex解读

计算机视觉一步步发展,从最初的分类、检测、分割来到了更深层的理解: Scene Graph Generation(场景图生成),即开始预测场景中物体之间的关系Scene Graph简介原有的检测box或者实例分割的mask不能充分地表达出图片的语义,因为两个相同的box/mask,可能是不同的语义,这个时候需要Scene Graph来能深层地理解图片的语义信息,这为caption、...

2018-07-05 22:37:18 8265 36

原创 SNIPER: Efficient Multi-Scale Training解读

它算是An Analysis of Scale Invariance in Object Detection-SNIP的增强版,依然在思考怎么能更好的解决检测中的多尺度问题IntroductionRCNN本身具有很好的尺度不变形,因为它先从图片中提取proposal,然后都resize到224去提取特征但是这样每个proposal不共享特征的计算,很慢,而Fast系列为了解决这...

2018-07-04 00:10:29 11395 2

原创 An Analysis of Scale Invariance in Object Detection – SNIP解读

今天无意中看到这篇好文,在网上搜索时发现Naiyan Wang也在知乎上推荐了,还中了CVPR2018的oral,佩服!Introduction这篇文章首先想探讨一个问题:scale变化对识别和检测的影响,然后就是upsample对于小物体的检测有用嘛?根据这两个问题的分析,本文提出了一种端到端的Image Pyramid Network,然后针对大物体在大尺度的图片上、小物体在小...

2018-07-03 17:27:03 3985

原创 python2和3中zip的差异(坑)

最近用python写个东西,里面用到了一个zip,内存飙升,甚是费解,查阅资料后发现zip在python2和3中的机制不同class Foo(object): def __init__(self): self.items = range(3) def __getitem__(self, i): print('__getitem__', i...

2018-06-25 23:06:02 3048

原创 Focal Loss for Dense Object Detection解读

还是Tsung-Yi Lin Piotr Dollar kaiming ross他们在Detection领域做的贡献Focal Loss for Dense Object DetectionMotivationsingle stage的检测方法如YOLO、SSD等简单高效,但是精度往往不如two stage的如Faster/Mask RCNN,本文发现single stage不如t...

2018-06-24 17:29:54 2777 4

原创 Learning to Segment Every Thing解读

kaiming ross他们一块的又一篇文章,基于mask rcnn的做的一个扩展,他们真是一直在推进着Detection Segmentation领域的发展Introduction目前做instance segmentation的方法都需要像素级标注,这样的话就很难有一个类别数目庞大的库做支撑,因为像素级标注太费人力物力财力了,已有的coco也只有80类,pascal voc只有...

2018-06-21 19:14:53 3118

原创 《故乡》

14年写的一首短诗,今天突然翻到了就改了改,留念一下。《故乡》五年前,别故乡,一番流浪,归来时,想看她,她不让。只是听人说,我最爱的油菜花没了,黑黑的柏油路横亘其上。...

2018-05-21 23:47:01 1953 2

原创 Generative Models(生成模型)简介

著名物理学家费曼说过: What I cannot create, I do not understand. 所以我们要真正做到了解图像影音等,就必须要能创造它们。Pixel RNN收集一大堆图片,然后利用这些图片开始训练这个图片生成模型,根据前面的像素预测接下来的像素,训练结束后随便给一个(或者若干)初始像素就能生成一幅图片。PixelRNN不仅work,而且在各种生成方法中...

2018-04-30 23:08:37 16596

原创 Video Caption Tutorial

欢迎star fork: video-caption.pytorch或者video-caption.pytorch任务介绍和image caption一样,不过是将图片换成了一段视频,根据视频内容给出一句文字描述。可用于后续的视频检索或者摘要生成,帮助智能体或者有视觉障碍的人理解现实情况。 Language model-based approach语言模型为基础的...

2018-04-26 00:26:45 11279 3

原创 光流在视频检测和分割的再应用

之前介绍了光流提升视频识别的速度和精度的文章,这次还是光流在视频检测和分割的应用,不过做的更完善了Towards High Performance Video Object Detection如图所示,较上一篇博客中的两篇文章主要有3个地方改进(详细请看该论文中的Ablation Study部分) - a 是我上一篇博客介绍的一个是利用光流提升速度,通过光流将关键帧的特征pr...

2018-04-25 21:45:14 7224

原创 利用光流提升视频识别的速度和精度

daijifeng老师的两篇文章,利用光流提升视频识别的速度Deep Feature Flow for Video Recognition,利用光流提高视频的精度Flow-Guided Feature Aggregation for Video Object Detection,关于光流可参考我之前的博客光流介绍以及FlowNet学习笔记Deep Feature Flow for ...

2018-04-03 11:59:39 10416 4

原创 TH库学习(二): THTensorApply宏观理解(简化)

特别说明,本文大多思路和解释都源于: [1] PyTorch源码浅析(一) [2] PyTorch源码浅析(二) [3] tiny_libTensorApply系列的宏函数是TH实现各种张量元素操作最重要的操作,它们负责把一个针对某些标量的操作应用到多个张量元素上去。在GPU部分是相当于一个map的操作。大致方法是优先去操作内存连续部分,然后再操作不连续的部分,以增加CPU cache命...

2018-03-23 17:42:35 2066

原创 TH库学习(一): THTensor, THStorage, THAllocator介绍

pytorch中的底层很多代码都是来源于的torch的低层Tensor库 TH = TorcH THC = TorcH Cuda THCS = TorcH Cuda Sparse THCUNN = TorcH CUda Neural Network (see cunn) THD = TorcH Distributed THNN = TorcH Neural...

2018-03-22 00:45:11 4471 2

原创 TH库学习: C语言实现模板编程(预备知识)

提前声明下面的例子和部分代码来源于PyTorch源码浅析(一)引子假如我们要实现一个函数: 两个Vector的相加,我们需要考虑int、float、double这3种类型,在C++中我们可以利用模板轻松搞定// C++模板类,轻松搞定template<typename T>void add(Vector<T> &c, Vector<T&...

2018-03-21 00:23:40 3396 1

原创 TH库学习: strided indexing scheme(预备知识)

数组步长首先介绍一下步长的概念即:相邻数组元素在内存中的开始地址的距离。数组步长如果等于数组元素的尺寸,则数组在内存中是连续的。比如int[10],如果它是连续的,则第0个元素和第1个元素在内存中开始地址的距离为sizeof(int),即刚好差一个元素的大小,如果不连续,则会大于一个元素的大小,因为它们两个之间多余字节。strided indexing scheme在numpy、T...

2018-03-19 22:24:55 1945

原创 RNN, LSTM, GRU, SRU, Multi-Dimensional LSTM, Grid LSTM, Graph LSTM系列解读

RNN/Stacked RNN rnn一般根据输入和输出的数目分为5种 1. 一对一 最简单的rnn 2. 一对多 Image Captioning(image -> sequence of words) 3. 多对一 Sentiment Classification(sequence of words -> sentiment) 4. 多对多: 时序不齐 Machi...

2018-03-13 16:04:38 11354 1

原创 Relation Networks for Object Detection解读

现在做detection的竞争相当激烈,能记住的就是ross kaiming团队和sunjian老师团队,还有今天的主角daijifeng老师团队了arxiv linkMotivation众所周知,如果能model出物体之间的关系,那么对物体识别是大有裨益的。可是在深度学习领域上还没人把这个做work,当前主流的检测模型faster rcnn等都是使用RoIPooling后独立...

2018-03-09 15:06:38 5561

原创 Path Aggregation Network for Instance Segmentation解读

本篇论文是COCO 2017 instance segmentation的冠军,读了这篇论文再加上之前读论文的体会,和朱神交流后得到一个感悟: 同样一个work的小改动,你不能挖的深或者看得很浅,那你就是trick,而别人就能给科研界带来启发,ResNet很简单,但是kaiming他们就能把解决的问题和起因经过解释的很清楚,然后实验也很solid,给你一步一步解释,但是方法是十分简洁的。ar...

2018-03-08 16:32:38 13344 3

原创 RoIAlign源码解析

RoIAlign源码及示意图/** 参数解释* bottom_data 需要做RoIAlign的feature map* spatial_scale feature map放缩的尺寸 vgg是1/16* channels height width feature map的通道高和宽不用多说* pooled_height pooled_width RoIAlign后的feature

2018-02-01 20:31:31 6671

原创 CapsuleNet的一个小例子

引用YouTube上一个up主的视频,讲解一个capsulenet的一个小例子。

2018-01-01 21:41:08 1981

ajax用户名验证

ajax用户名验证

2013-12-01

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除