![](https://img-blog.csdnimg.cn/20200309105640933.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
深度学习基础
文章平均质量分 92
深度学习是机器学习的一个分支,因其发展的太好了所以单独开一个专栏。
本人深度学习框架使用轨迹:caffe->tensorflow->pytorch
涉猎领域轨迹:图像识别->目标检测->人脸识别->视频检测
陈生~
这个作者很懒,什么都没留下…
展开
-
MLP在CV上的复兴,“Pay Attention to MLPs“
前言本文写于2021年8月27日。最近好像没人写这方面的总结,我就稍微写一写。transformer最近成为cv学术圈的宠儿,有声音鼓吹要取代CNN。然而透过一切浮华的外表,有人说,不就是MLP+softmax嘛。这不,谷歌吹响了复兴MLP的号角,一系列魔改接踵而至。MLP能否达到transformer的热度?拭目以待。为什么需要要复兴MLP?我觉得有两个原因很重要:简单,通用。目前的实验结果表明,MLP确实有复兴的希望。先锋:MLP-MixerMLP-Mixer: An all-MLP Arc原创 2021-08-27 17:45:58 · 1037 阅读 · 2 评论 -
CNN中特征融合的一些策略
尽管特征融合的方法很多,但如果数学化地表示,大体可以分为以下几种形式:X+Y\textbf{X}+\textbf{Y}X+Y: X\textbf{X}X、Y\textbf{Y}Y表示两个特征图,+++表示元素级相加. 代表如ResNet、FPNX concat Y\textbf{X} \; concat\;\textbf{Y}XconcatY .concatconcatconcat表示张量 拼接操作。 代表如GoogleNetX+G(Y)⋅Y\textbf{X}+\textbf{G(Y)}\cd原创 2020-11-29 20:51:39 · 12964 阅读 · 3 评论 -
CNN反向传播推导
基础:链式法则神经网络反向传播的求导基于链式法则。以两个复合的函数为例:df(g(x))dx=df(g(x))dg(x)⋅dg(x)dx\frac{\mathrm{d}f(g(x))}{\mathrm{d}x}=\frac{\mathrm{d}f(g(x))}{\mathrm{d}g(x)}\cdot \frac{\mathrm{d}g(x)}{\mathrm{d}x}dxdf(g(x))=dg(x)df(g(x))⋅dxdg(x)神经网络的每层相当于一个简单的函数,整个神经网络就相当于这些函数原创 2020-06-19 22:58:02 · 471 阅读 · 0 评论 -
【常用检测框架】DetNet/Casecade RCNN/FCOS/RetinaNet
DetNet在DetNet提出之前,检测框架的backbone一般都是用分类框架,或在上面稍加改动。分类框架用于检测有以下几个缺点:1、stage(不同尺度的特征图,用于多尺度检测)少,只能自己加,但没有相应的预训练的权重。2、downsample丢失信息严重。分类框架只需要预测类别,相比检测容许丢失更多的信息。detNet在resNet50的基础上作改进。改动部分为con4_x(stag...原创 2020-04-23 23:13:15 · 1140 阅读 · 0 评论 -
卷积总结
卷积的作用图像处理和提取特征各自类型的卷积带孔卷积带孔卷积实现时并不是在卷积核的“孔”里填0,而是在feature map上跳着卷积。参数rate表示每隔(rate-1)个像素采样优点:扩大感受野。分组卷积顾名思义,则是对输入feature map进行分组,然后每组分别卷积。假设输入feature map的尺寸仍为C∗H∗W,输出feature map的数量为N个,如果设定要分成G...原创 2020-04-21 20:53:02 · 220 阅读 · 0 评论 -
Sigmoid/Tanh/ReLu激活函数的优缺点
激活函数的作用引入非线性,增强神经网络的表达能力Sigmoid/Tanh/ReLu激活函数的优缺点这三个激活函数都没能解决梯度消失梯度弥散就是梯度消失。一种很流行的说法是Relu解决了梯度消失的问题,其实并不是这样。单从激活函数的导数来说,看激活函数的“死区”范围,即导数接近于0的区间。Sigmoid和Tanh仅0附近一小段范围非死区;即使是Relu仍有一半的死区。此外,梯度不仅包...原创 2020-04-15 13:52:49 · 6637 阅读 · 0 评论 -
关于CNN中的不变性
不变性包括三种平移不变性旋转不变性尺度不变性所谓不变性即图像目标经过平移/旋转/尺度变化后是否还能取得相似的检测结果。之前很流行的说法是CNN同时具有三种不变性,然而有论文证明并非这样(论文就不贴了,那篇论文我也没看过,只看了标题,嘻嘻)。目前比较令人信服的说法是:CNN具有平移不变性。这是由卷积核滑动操作决定的天然属性。CNN中的池化层具有一定程度的旋转不变性和尺度不变性。...原创 2020-04-15 12:34:59 · 958 阅读 · 0 评论 -
【经典检测框架】RCNN/SPP NET/Fast R-CNN/Faster R-CNN/SSD/YOLO
参考来源https://cloud.tencent.com/developer/news/281788RCNNR-CNN的简要步骤如下(1) 输入测试图像(2) 利用选择性搜索Selective Search算法在图像中从下到上提取2000个左右的可能包含物体的候选区域Region Proposal(3) 因为取出的区域大小各自不同,所以需要将每个Region Proposal缩放...原创 2020-03-31 20:49:41 · 243 阅读 · 0 评论 -
【经典分类框架】vgg/GoogLeNet/ResNet/DenseNet/MobileNet/ShuffleNet
太早的LeNet和AlexNet就不提了,也相对比较简单。vgg16 vgg19文章《VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE SCALE IMAGE RECOGNITION》发现了小卷积核搭配更深的网络会有更好的效果。小卷积核堆叠在保持感受野不变的情况下参数更少,网络更深学习能力更强。结构:前面一堆卷积层后面跟三层全连接层。卷积核全为...原创 2020-03-28 15:09:17 · 1642 阅读 · 0 评论 -
【视频检测】T-CNN
文章来源 《Appearance-and-Relation Networks for Video Classification》视频主要包含两部分的信息:每一帧的图像(空间信息)帧之间的顺序 (时间信息)目前有三种比较成功的视频检测框架:2-stream CNN.有两路输入,一路是普通的帧图像(apperance,空间信息),一路是光流(optical flow,时间信息,体...原创 2020-03-09 19:17:16 · 551 阅读 · 0 评论 -
池化层的改进
从新的角度看池化层池化可以看成是对滑动窗口内的激活值(activation)线性加权,作用是降采样( downsampling)。具体的数学形式如下:设F为池化函数,I为输入的特征图(FeatureMap), O为池化后的输出,考虑单通道情况下,Ix,y,Ox,yI_{x,y},O_{x,y}Ix,y,Ox,y分别表示输入和输出在坐标(x,y)处的激活值,Ω\OmegaΩ为池化窗口的索引集...原创 2020-03-09 11:41:45 · 1927 阅读 · 0 评论