爆米花好美啊-CSDN博客

原创 Maxout netword and and NIN(Network in Network)

转载自论文笔记《Maxout Networks》 && 《Network In Network》，有少量补充各用一句话概括常规卷积层： conv→relumaxout： several conv(full)→maxNIN： serveral conv→relu→conv(1x1)→relu具体一点常规卷积层：conv→reluconv: conv_out=∑(...

2019-01-13 15:25:46 275

原创 Python 的 import 机制

转载自[Python 的 import 机制](https://loggerhead.me/posts/python-de-import-ji-zhi.html)

2019-01-11 14:28:27 234

原创 strided convolution vs pooling

strided convolution vs pooling

2019-01-04 11:28:49 4946 2

原创 DenseNet记录

MotivationResnet的特征有重复，测试时随机去掉一些residual block，对精度的影响很小Resnet的变种InceptionNet、ResNext等是扩宽网络的width来提升性能基于上，densenet利用feature reuse的思想来提升网络性能，每一层的输入都包含之前的输入层，如果这样就会导致channel越来越大，但因为特征得到了复用，因此每一层的cha...

2019-01-01 20:10:55 775

原创 Mask RCNN细节记录

精度问题在FPN论文中有个表格显示 C5+2fc要比C4+C5差很多，这里的原因一是C5+2fc的stride为32，feature map太小了，anchor数量也少，RPN的召回率太低了，第二个原因应该是RoIPooling造成的偏差影响更大了，因为stride太大了(这个原因待定，不知道对box分支的影响有多大，但可以肯定的是对mask 分支影响很大，下面会细讲)下面这个表格来自Ma...

2018-12-20 16:40:54 961

原创 Deformable ConvNets v2: More Deformable, Better Results

之前介绍过dai老师的DCN v1Deformable Convolutional Networks解读，现在出了V2效果更赞，实验分析也很充分。分析DCNEffective receptive fields视野域中每个点对响应的不同，有效视野域即为输入扰动后对输出的影响程度。比如求conv2上某一位置的有效视野域，那就依次扰动图像观察该位置处的输出变化，导致输出变化剧烈的像素点它的...

2018-12-11 13:56:32 1295 1

原创 Resnet实现细节记录

Resnet# 注意BasicBlock和Bottleneckdef resnet18(pretrained=False, **kwargs): model = ResNet(BasicBlock, [2, 2, 2, 2], **kwargs) return modeldef resnet34(pretrained=False, **kwargs): model =...

2018-12-10 16:25:43 4578

原创 Revisiting RCNN: On Awakening the Classification Power of Faster RCNN

之前听过该文作者Yunchao Wei给的一个talk，当时仔细思考这篇论文，只是感觉加了参数肯定会变好呀，但是实际上该文在探索检测任务中分类和定位的关系。实际上，检测任务中有很多值得探讨的东西，比如之前博客讲过的一篇论文在探究训练和测试尺寸一致的问题，这些点看似都很小，但是我之前一直都是猜测得出结论，没有仔细探究过，分割也有这样的问题。还有就是Multi Task的好处与坏处，比如分割中前背景...

2018-12-06 11:52:35 1885 4

原创 End-to-End Learning of Motion Representation for Video Understanding

本文TVNet(Total Variable)是在TV-L1的基础上，改变一些操作变成可以训练且速度提高。

2018-11-25 14:33:19 464

原创 Graph RCNN解读

这个十月一堆事，心情也比较烦闷，就一直没有动笔写blog，之前一直在做scene graph的生成，然后最近恰好看到graph-rcnn这篇很不错的文章，就解读做个记录Framework以往做scene graph generation，基本都是在faster rcnn基础上检测出图片的物体后，两两配对识别他们的关系，这样做是很有效但是很低效，毕竟并不是所有物体都有关系的，这样做太耗时间了...

2018-10-24 16:29:57 2281

原创 [强化学习-7] 模型和规划(model and planning)

之前的博客都在讲从之前的experience中学习policy或者value function，这一篇博客讲解从之前的experience中学习model何为model一句话总结就是状态转移概率和奖励Learning a model状态转移概率s, a → s‘可以看作是一个density estimation问题，而奖励s, a → r可以看做是regress...

2018-09-07 11:40:48 958

原创 [强化学习-6] 策略梯度

强化学习的目标是学习一个策略来获得最大的累计奖励，之前的几篇博客是value-based的方法，即先估计状态价值V(s)或者状态动作价值Q(s, a)，然后根据这些估值得到策略，而本文要讲一下policy-based的方法。Policy-based 简介value based中，有了Q值后就可以根据epsilon greedy进行策略选择，但是这有个问题就是说这个策略是确定性策...

2018-09-04 18:52:12 3182

原创 [强化学习-5] 值函数近似

前几篇博客讲了如何进行值函数估计，估计完之后这些结果怎么保持呢，状态动作空间很小的就存在表中，用的时候查表获取v(s)和Q(s, a)，但当状态空间是高维连续时，需要储存的东西就太多了，这个表就不行了，这时我们会采用函数逼近(function approximation)的方式逼近值函数：一般的函数逼近有Linear combinations of features(可微) N...

2018-09-01 14:44:46 3431

原创 [强化学习-4] 蒙特卡洛和时序差分法-控制

蒙特卡洛

2018-08-31 16:47:04 1722

原创 [强化学习-3] 蒙特卡洛和时序差分法-预测

上一次我们在讲解值函数估计时用了DP，这次采用蒙特卡洛和时序差分

2018-08-29 19:57:34 1890

原创 [强化学习-2] DP-值估计和策略控制

上一篇博客讲了强化学习中的几个基本概念，其中推导的贝尔曼方程是一个很重要的部分。在上一篇博客里也说过MRP里的贝尔曼方程可以通过求解矩阵直接得到收敛后的state-value function，但是计算复杂度高，我们这节采用动态规划的方式求解预测问题定义：MRP或者给定策略π的MDP，求出状态价值函数v(s)/vπ(s)v(s)/vπ(s)v(s)/v_\pi(s) 例子：出...

2018-08-22 15:15:35 1523

原创 [强化学习-1] MP、MRP、MDP和Bellman equation

最近又开始重新学习强化学习了，记录一下历程MP(马尔科夫过程)定义：S是有限状态集合，P是状态转移概率矩阵例子：我们将一次有限步数的实验称作一个单独的episode 1. C1 C2 Pass Sleep 2. C1 FB FBMRP(马尔科夫奖励过程)定义：比MP多了个reward，只要达到某个状态会获得相应奖励R，γ是折扣因子，一个episode中越...

2018-08-21 17:39:48 6171

原创朴素贝叶斯(NB)、逻辑回归(LR)、隐马尔科夫模型(HMM)、条件随机场(CRF)

一直在搞CNN/RNN，对传统的知识了解一直不够，今天恰好看一篇论文需要CRF的知识，就借机都学习一下梗概朴素贝叶斯：生成式模型，条件独立 —&amp;gt; 序列形式隐马尔科夫模型 —&amp;gt; 图形式通用有向图模型逻辑回归：判别式模型，条件不独立 —&amp;gt; 序列形式线性链条件随机场 —&amp;gt; 序列形式通用条件随机场朴素贝叶斯贝叶斯公式 P(Y|X)=...

2018-07-22 13:57:04 7668

原创 Scene Graph Generation by Iterative Message Passing解读

lifeifei老师团队在发布了Visual Genome数据集后，又在Scene Graph Generation做的新的创新关于Scene Graph Generation就不再赘述，在上一篇neural motif介绍过，neural motif比这篇晚一些，效果也好一些Image to Scene Graph现状Lu et al: Visual Rel...

2018-07-09 20:57:47 6746 5

原创 Neural Motifs: Scene Graph Parsing with Global Contex解读

计算机视觉一步步发展，从最初的分类、检测、分割来到了更深层的理解: Scene Graph Generation(场景图生成)，即开始预测场景中物体之间的关系Scene Graph简介原有的检测box或者实例分割的mask不能充分地表达出图片的语义，因为两个相同的box/mask，可能是不同的语义，这个时候需要Scene Graph来能深层地理解图片的语义信息，这为caption、...

2018-07-05 22:37:18 8265 36

原创 SNIPER: Efficient Multi-Scale Training解读

它算是An Analysis of Scale Invariance in Object Detection-SNIP的增强版，依然在思考怎么能更好的解决检测中的多尺度问题IntroductionRCNN本身具有很好的尺度不变形，因为它先从图片中提取proposal，然后都resize到224去提取特征但是这样每个proposal不共享特征的计算，很慢，而Fast系列为了解决这...

2018-07-04 00:10:29 11395 2

原创 An Analysis of Scale Invariance in Object Detection – SNIP解读

今天无意中看到这篇好文，在网上搜索时发现Naiyan Wang也在知乎上推荐了，还中了CVPR2018的oral，佩服！Introduction这篇文章首先想探讨一个问题：scale变化对识别和检测的影响，然后就是upsample对于小物体的检测有用嘛？根据这两个问题的分析，本文提出了一种端到端的Image Pyramid Network，然后针对大物体在大尺度的图片上、小物体在小...

2018-07-03 17:27:03 3985

原创 python2和3中zip的差异(坑)

最近用python写个东西，里面用到了一个zip，内存飙升，甚是费解，查阅资料后发现zip在python2和3中的机制不同class Foo(object): def __init__(self): self.items = range(3) def __getitem__(self, i): print('__getitem__', i...

2018-06-25 23:06:02 3048

原创 Focal Loss for Dense Object Detection解读

还是Tsung-Yi Lin Piotr Dollar kaiming ross他们在Detection领域做的贡献Focal Loss for Dense Object DetectionMotivationsingle stage的检测方法如YOLO、SSD等简单高效，但是精度往往不如two stage的如Faster/Mask RCNN，本文发现single stage不如t...

2018-06-24 17:29:54 2777 4

原创 Learning to Segment Every Thing解读

kaiming ross他们一块的又一篇文章，基于mask rcnn的做的一个扩展，他们真是一直在推进着Detection Segmentation领域的发展Introduction目前做instance segmentation的方法都需要像素级标注，这样的话就很难有一个类别数目庞大的库做支撑，因为像素级标注太费人力物力财力了，已有的coco也只有80类，pascal voc只有...

2018-06-21 19:14:53 3118

原创《故乡》

14年写的一首短诗，今天突然翻到了就改了改，留念一下。《故乡》五年前，别故乡，一番流浪，归来时，想看她，她不让。只是听人说，我最爱的油菜花没了，黑黑的柏油路横亘其上。...

2018-05-21 23:47:01 1953 2

原创 Generative Models(生成模型)简介

著名物理学家费曼说过: What I cannot create, I do not understand. 所以我们要真正做到了解图像影音等，就必须要能创造它们。Pixel RNN收集一大堆图片，然后利用这些图片开始训练这个图片生成模型，根据前面的像素预测接下来的像素，训练结束后随便给一个(或者若干)初始像素就能生成一幅图片。PixelRNN不仅work，而且在各种生成方法中...

2018-04-30 23:08:37 16596

原创 Video Caption Tutorial

欢迎star fork: video-caption.pytorch或者video-caption.pytorch任务介绍和image caption一样，不过是将图片换成了一段视频，根据视频内容给出一句文字描述。可用于后续的视频检索或者摘要生成，帮助智能体或者有视觉障碍的人理解现实情况。 Language model-based approach语言模型为基础的...

2018-04-26 00:26:45 11279 3

原创光流在视频检测和分割的再应用

之前介绍了光流提升视频识别的速度和精度的文章，这次还是光流在视频检测和分割的应用，不过做的更完善了Towards High Performance Video Object Detection如图所示，较上一篇博客中的两篇文章主要有3个地方改进(详细请看该论文中的Ablation Study部分) - a 是我上一篇博客介绍的一个是利用光流提升速度，通过光流将关键帧的特征pr...

2018-04-25 21:45:14 7224

原创利用光流提升视频识别的速度和精度

daijifeng老师的两篇文章，利用光流提升视频识别的速度Deep Feature Flow for Video Recognition，利用光流提高视频的精度Flow-Guided Feature Aggregation for Video Object Detection，关于光流可参考我之前的博客光流介绍以及FlowNet学习笔记Deep Feature Flow for ...

2018-04-03 11:59:39 10416 4

原创 TH库学习(二): THTensorApply宏观理解(简化)

特别说明，本文大多思路和解释都源于: [1] PyTorch源码浅析（一） [2] PyTorch源码浅析（二） [3] tiny_libTensorApply系列的宏函数是TH实现各种张量元素操作最重要的操作，它们负责把一个针对某些标量的操作应用到多个张量元素上去。在GPU部分是相当于一个map的操作。大致方法是优先去操作内存连续部分，然后再操作不连续的部分，以增加CPU cache命...

2018-03-23 17:42:35 2066

原创 TH库学习(一): THTensor, THStorage, THAllocator介绍

pytorch中的底层很多代码都是来源于的torch的低层Tensor库 TH = TorcH THC = TorcH Cuda THCS = TorcH Cuda Sparse THCUNN = TorcH CUda Neural Network (see cunn) THD = TorcH Distributed THNN = TorcH Neural...

2018-03-22 00:45:11 4471 2

原创 TH库学习: C语言实现模板编程(预备知识)

提前声明下面的例子和部分代码来源于PyTorch源码浅析（一）引子假如我们要实现一个函数: 两个Vector的相加，我们需要考虑int、float、double这3种类型，在C++中我们可以利用模板轻松搞定// C++模板类，轻松搞定template<typename T>void add(Vector<T> &c, Vector<T&...

2018-03-21 00:23:40 3396 1

原创 TH库学习: strided indexing scheme(预备知识)

数组步长首先介绍一下步长的概念即：相邻数组元素在内存中的开始地址的距离。数组步长如果等于数组元素的尺寸，则数组在内存中是连续的。比如int[10]，如果它是连续的，则第0个元素和第1个元素在内存中开始地址的距离为sizeof(int)，即刚好差一个元素的大小，如果不连续，则会大于一个元素的大小，因为它们两个之间多余字节。strided indexing scheme在numpy、T...

2018-03-19 22:24:55 1945

原创 RNN, LSTM, GRU, SRU, Multi-Dimensional LSTM, Grid LSTM, Graph LSTM系列解读

RNN/Stacked RNN rnn一般根据输入和输出的数目分为5种 1. 一对一最简单的rnn 2. 一对多 Image Captioning(image -&gt; sequence of words) 3. 多对一 Sentiment Classification(sequence of words -&gt; sentiment) 4. 多对多: 时序不齐 Machi...

2018-03-13 16:04:38 11354 1

原创 Relation Networks for Object Detection解读

现在做detection的竞争相当激烈，能记住的就是ross kaiming团队和sunjian老师团队，还有今天的主角daijifeng老师团队了arxiv linkMotivation众所周知，如果能model出物体之间的关系，那么对物体识别是大有裨益的。可是在深度学习领域上还没人把这个做work，当前主流的检测模型faster rcnn等都是使用RoIPooling后独立...

2018-03-09 15:06:38 5561

原创 Path Aggregation Network for Instance Segmentation解读

本篇论文是COCO 2017 instance segmentation的冠军，读了这篇论文再加上之前读论文的体会，和朱神交流后得到一个感悟: 同样一个work的小改动，你不能挖的深或者看得很浅，那你就是trick，而别人就能给科研界带来启发，ResNet很简单，但是kaiming他们就能把解决的问题和起因经过解释的很清楚，然后实验也很solid，给你一步一步解释，但是方法是十分简洁的。ar...

2018-03-08 16:32:38 13344 3

原创 RoIAlign源码解析

RoIAlign源码及示意图/** 参数解释* bottom_data 需要做RoIAlign的feature map* spatial_scale feature map放缩的尺寸 vgg是1/16* channels height width feature map的通道高和宽不用多说* pooled_height pooled_width RoIAlign后的feature

2018-02-01 20:31:31 6671

原创 CapsuleNet的一个小例子

引用YouTube上一个up主的视频，讲解一个capsulenet的一个小例子。

2018-01-01 21:41:08 1981

ajax用户名验证

Android内核编译后刷入手机启动不了