自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 【论文】Fast RCNN

【论文】Ross Girshick. Fast R-CNN. (pdf)Why is Fast RCNNRCNN 存在的问题:训练分多阶段进行(1)fine-tune ConvNet;(2)fit SVMs to CovNet features;(3)learn bbox regression训练耗时、占内存从磁盘读出图片然后再对 object proposal 提取特征测试时检测速度慢测试时对每张图片的每个 object proposal 提取特征,每张图片提取 2k 个 objec.

2021-09-18 10:07:39 138

原创 【论文】MLB

【论文】Kim, Jin-Hwa, Kyoung-Woon On, Woosang Lim, Jeonghee Kim, Jung-Woo Ha, and Byoung-Tak Zhang. Hadamard product for low-rank bilinear pooling. pdfMCB 有两个问题;一个问题出在采样方式上,MCB 依赖于 E[⟨Ψ(x,h,s),Ψ(y,h,s)⟩]=⟨x,y⟩E[\left \langle \Psi(x, h, s), \Psi(y, h, s)\.

2021-09-17 10:07:26 574

原创 【论文】MCB

【论文】Fukui, Akira, Dong Huk Park, Daylen Yang, Anna Rohrbach, Trevor Darrell, and Marcus Rohrbach. Multimodal compact bilinear pooling for visual question answering and visual grounding. (pdf)对于像视觉问答、视觉定位这样的多模态任务,需要融合不同类型模型的向量得到一个 joint representation传.

2021-09-15 14:49:12 986

原创 【论文】Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge

【论文】eney, Damien, Peter Anderson, Xiaodong He, and Anton Van Den Hengel. Tips and tricks for visual question answering: Learnings from the 2017 challenge.(pdf)主要思想论文提出一些细节上优化提升 VQA 的方法,主要包括如下:sigmoid output:在结果预测时,允许有多个答案,对每个答案采用 sigmoid 方法预测use sof.

2021-09-13 17:48:26 164

原创 【论文】RCNN

【论文】Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014.(pdf)RCNN 进行物体检.

2021-09-11 18:47:07 191

原创 【论文】GAN

【论文】Goodfellow I J , Pouget-Abadie J , Mirza M , et al. Generative Adversarial Networks[J].(pdf)Generation生成(generation)就是模型通过学习一些数据,然后生成类似的数据以前很早就有生成技术,比如自编码器我们训练一个编码器,然后将图片转换为编码,然后再训练有一个解码器,吧编码转换为一张图片,接着计算得到图片和输入图片之间的 MSE(mean square error),训练完成之后.

2021-09-11 14:43:04 389

原创 【论文】Group Normalization

【论文】Wu Y , He K . Group Normalization[J].(pdf)BatchNorm 有一个很大的问题——随着 batch_size 的减小,BN 的错误会急剧增加,这是由于小批量不正确统计估计导致的。于是,我们就又有了 Group Normalization 作为 BN 的替代,GN 将通道化成组,然后在每一个组中计算用于归一化的均值和方差如今,许多的模型由于显存的限制都使用了较小的 batch_size,但是根据上图显示结果,这会导致非常严重的模型性能下降。例如,F.

2021-09-10 09:47:41 345

原创 【论文】LayerNorm

【论文】Ba J L, Kiros J R, Hinton G E. Layer normalization[J].(pdf)我们在 BatchNorm 的分析中也指出 BatchNorm 存在两个问题,一是小批量采样太小会导致结果不稳定,二是对于 RNN 网络 BatchNorm 并不适合于是,本文提出了 『层归一化』,一种独立于 batch_size 的算法,所以无论样本数多少都不会影响参与 LayerNorm 计算的数据Layer normalization设 HHH 是某一层中的隐藏结点.

2021-09-08 19:26:15 1310

原创 LeetCode 208. 实现 Trie (前缀树)

题目描述208. 实现 Trie (前缀树)解法:多叉树模型(C++)class Trie {private: bool isEnd; Trie* next[26];public: /** Initialize your data structure here. */ Trie() { isEnd = false; memset(next, 0, sizeof(next)); } /** Inserts a

2021-09-08 10:32:25 51

原创 【论文】BatchNorm

BatchNorm主要解决的问题机器学习领域有一个很重要的基础假设:iid(独立同分布),即训练数据和测试数据独立且服从同一分布但是这一点并不符合真实的实践情况,BatchNorm 指出了下面两种问题:『Internal Convariate Shift』 这个术语主要描述的是:在每一次迭代更新之后,上一层网络的输出数据经过这一层网络计算之后,数据的分布会发生变化,为下一层网络的学习带来了困难(神经网络本来就是学习数据的分布,要是分布一直在变,学习就很难了),这个现象我们就称为 Internal Co

2021-09-08 10:00:21 791

原创 【总结】Update Rules

经验总结一般框架定义:待优化参数 θ\thetaθ假设函数 hθ(x)h_\theta(x)hθ​(x),在监督学习中,为了拟合输入样本,我们都会有一个假设函数损失函数 J(θ)=∑i=1m(hθ(xi)−yi)2J(\theta)=\overset{m}{\underset{i=1}{\sum}}(h_\theta(x_i)-y_i)^2J(θ)=i=1∑​m​(hθ​(xi​)−yi​)2学习率 α\alphaα流程:计算损失函数关于此时参数的梯度 ▽θJ(θ)\bigtrian

2021-09-07 16:15:46 267

原创 【论文】Adam

【论文】Kingma D , Ba J . Adam: A Method for Stochastic Optimization[J]. Computer ence, 2014.(pdf)论文首次提出了 Adam 算法——基于一阶导数的随机梯度下降算法Adam 是对 SGD、AdaGrad 和 RMSProp 算法的优化Adam 结合 AdaGrad 和 RMSProp 两种算法的优点,对梯度的一阶矩估计和二阶矩估计都进行综合考虑,具体算法如下算法流程,计算 ttt 时刻目标函数对 θ\t.

2021-09-03 20:05:03 1569

原创 【论文】DenseNet

【论文】Huang G , Liu Z , Laurens V D M , et al. Densely Connected Convolutional Networks[J]. 2016.(pdf)【新颖点】DenseNet 优点缓解了梯度消失的问题,加强了特征传播,鼓励特征重用,大大减少了参数的数量DenseNet 概述DenseNet 为了保证网络层之间的最大信息流,将所有层直接彼此连接起来。为了保证前馈特性,每个层从前面的所有层获得额外的输入,并将自己的特征映射传递给后面的所有层因为.

2021-09-02 16:03:20 623

原创 【论文】ResNet

【论文】He K , Zhang X , Ren S , et al. Deep Residual Learning for Image Recognition[J]. 2016.(pdf)【新颖点】深度网络退化问题从经验来看,网络的深度对模型的性能至关重要,当网络层数增加后,网络可以进行更复杂的特征模式的提取,但是这却只是经验上的判断。ResNet 的作者通过实验数据说明,56 层的网络不论是训练时错误率还是测试时错误率都高于 20 层网络。这不是因为深层网络存在的梯度消失或爆照问题引起的,我们.

2021-09-02 13:57:01 647

原创 【论文】GoogleNet Inception V1

【论文】Szegedy C , Liu W , Jia Y , et al. Going Deeper with Convolutions[J]. 2014.(pdf)【新颖点】保证算力的情况下增大增大宽度和深度宽度:利用 Inception 结构同时执行多个网络结构深度:利用辅助分类器防止梯度消失Inception V1我们先说一下为什么要提出 Inception在早期,大家都尽可能的想加深加宽网络,但是一味的增加还是有很多问题:参数越多,计算复杂复杂度越大网络越深,越容易出现.

2021-09-01 21:07:06 176

原创 【论文】VGGNet

【论文】Simonyan K , Zisserman A . Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. Computer ence, 2014.(pdf)【新颖点】更深的网络使用小卷积核 3×33\times33×3 和 1×11\times11×1 替代大卷积核多尺度训练及预测网络结构比较常见的为 VGG-16 和 VGG-19,VGGNet 把网络分成了 5 段,每段都将多个 3×3.

2021-09-01 17:04:04 169

原创 【论文】AlexNet

[论文] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems. 2012.(pdf)网络结构首先,我们说明一下论文中将网络分为上下两个部分是考虑到对应两块 GPU 用于计算,只有到了特定的网络层之后才需要两块.

2021-09-01 15:01:55 296

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除