![](https://img-blog.csdnimg.cn/b284c227325d4f45a1cba3e07922b776.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
深度学习
文章平均质量分 70
分类专栏没有简介
starleeisamyth
码不停题
展开
-
超越卷积、自注意力机制:强大的神经网络新算子involution(连算子都内卷= =)
这篇工作主要是由我和SENet的作者胡杰一起完成的,也非常感谢HKUST的两位导师 陈启峰和张潼老师的讨论和建议。本文是对我们CVPR 2021被接收的文章 Involution: Inverting the Inherence of Convolution for Visual Recognition的介绍,同时也分享一些我们对网络结构设计(CNN和Transformer)的理解。概要我们的贡献点简单来讲:(1)提出了一种新的神经网络算子(operator或op)称为involution,它比.转载 2021-03-26 21:06:00 · 1371 阅读 · 2 评论 -
【颜色空间】RGB、HSV、Lab、YUV颜色空间模型
颜色通常用三个相对独立的属性来描述,三个独立变量综合作用,自然就构成一个空间坐标,这就是颜色空间。而颜色可以由不同的角度,用三个一组的不同属性加以描述,就产生了不同的颜色空间。但被描述的颜色对象本身是客观的,不同颜色空间只是从不同的角度去衡量同一个对象。 颜色空间按照基本结构可以分两大类:基色颜色空间和色、亮分离颜色空间。前者的典型是 RGB,还包括 CMY、CMYK、CIE XYZ 等;后者包括 YCC/YUV、Lab、以及一批“色相类颜色空间”。CIE XYZ 是定义一切颜色空间的基准,很奇妙原创 2021-02-19 17:51:52 · 3862 阅读 · 1 评论 -
【论文笔记】Xception(上)
一、摘要We present an interpretation ofInception modules in convolutional neural networks as being an intermediate step in-between regular convolution and the depthwise separable convolution operation (a depthwise convolution followed by a pointwise convolut原创 2021-02-16 21:50:19 · 188 阅读 · 0 评论 -
2D姿态估计整理:从DeepPose到HRNet(文献综述)
人体姿态估计文献综述2D姿态估计整理:从DeepPose到HRNet原创 2021-12-27 14:04:24 · 2922 阅读 · 0 评论 -
视频动作识别(Action Recognition)综述
概述使用深度学习方法解决视频中行为识别/动作识别的问题解决思路有两大类,一是以抽取并分类时空特征为目的的视频识别方法;二是以提取骨架信息进行再训练为目的的姿态估计方法。本文主要梳理近5年来第一类论文中的算法,其中有三个分支:分别是two-stream(双流)方法,C3D方法以及CNN-LSTM方法。1.任务特点动作识别和图像分类其实很相似,图像分类是按照图像中的目标进行软分类,动作识别也类似。起初类似于UCF数据集,都是采用单标签,也就是一段视频只对应一个标签。现在CPVR举办的Activitynet原创 2022-01-14 12:36:05 · 9212 阅读 · 0 评论 -
2019年“华为杯”研究生数学建模A题--无线智能传播模型
1. 无线传播模型建模方法简介在传统的无线传播模型的建立过程中,往往首先需要对传播场景进行划分,每一个场景对应一个传播经验模型。然而,经验模型在实际使用中往往不够精确,所以仍然需要通过采集大量的工程参数以及 实际平均信号接收功率(RSRP)测量值进行经验模型公式的修正。所以,传播模型建立的本质是一个函数拟合的过程,通过调整传播模型的系数,使误差最小。所以当工程参数、地理位置信息、特定地理位置测量点的RSRP已知的情况下,该问题可以归类为一个监督学习的问题。与传统经验模型需要额外人力物力进行校正相比,是否原创 2021-10-07 10:44:03 · 1167 阅读 · 1 评论 -
Blazeface网络浅析
Introduction来自谷歌的研究人员通过改造mobileNet提出更为紧凑的轻量级特征提取方法、结合适用于移动端GPU高效运行的新型锚框机制,以及代替非极大值抑制的加权方法保证检测结果的稳定性,在移动端上实现了超高速的高性能人脸检测BlazeFace.一个轻量级特征提取网络128 x 128 RGB input2D convolution. 5 single, and 6 double BlazeBlocksHighest channel resolution is 96Lowest s原创 2021-09-27 14:46:15 · 273 阅读 · 0 评论 -
机器学习之回归算法浅析
前言总的来说,机器学习的问题可以分为两大类:分类和回归,不管是分类还是回归,其本质是一样的,都是对输入做出预测,并且都是监督学习。说白了,就是根据特征,分析输入的内容,判断它的类别,或者预测其值。在分类问题上,这几年已经有很多文献比较了常见的机器学习方法,比如:Do we Need Hundreds of Classiers to Solve Real World Classification Problems?Comparison of 14 different families of class原创 2021-09-13 18:02:23 · 1228 阅读 · 0 评论 -
2017年导读——基于深度学习的语义分割
原文链接转载 2021-05-01 21:12:41 · 82 阅读 · 0 评论 -
caffe入门
1、可视化工具:http://ethereon.github.io/netscope/quickstart.html2、常用网络模型caffe-model之.prototxt:https://github.com/soeaver/caffe-model3、python生成.prototxt文件工具:https://blog.csdn.net/qq_31050167/article/details/789275294、caffe的.prototxt文件解读https://blog.csdn.ne转载 2021-04-12 09:44:20 · 81 阅读 · 0 评论 -
全卷积神经网络( FCN ):语义分割深度模型先驱
语义分割:简单地说,分割就是抠图。语义分割,就是按图像中物体表达地含义进行抠图。现在ps已经集成了很多自动分割的功能。摄像头采集到车前景象,通过模型分析,我们可以自动筛选出地面、交通线、人行道、行人、建筑、树、以及其他基础设施。在上图,我们可以看到地面和交通标识线有清晰的分割,路面和人行道也同样如此,甚至路灯和建筑都可以清楚地分离出来。这项技术在医学上的作用也同样巨大,我们可以识别病灶并将其与正常组织分割,大脑神经系统内我们可以分离出同一组功能的神经系统,这些假如依赖人工去完成,所需时间至少为数小原创 2021-04-05 21:51:19 · 2157 阅读 · 0 评论 -
RGB与Lab颜色空间互相转换
一、RGB与Lab的区别 RGB的是由红色通道(R)、绿色通道(G)、蓝色通道(B)组成的,最亮的红色+最亮的绿色+最亮的蓝色=白色;最暗的红色+最暗的绿色+最暗的蓝色=黑色;而在最亮和最暗之间,相同明暗度的红色+相同明暗度的绿色+相同明暗度的蓝色=灰色。在RGB的任意一个通道内,白和黑表示这个颜色的明暗度。所以,有白色或者灰白色的地方,R、G、B三个通道都不可能是黑色的,因为必须要有R、G、B三个通道来构成这些颜色。 而LAB不一样,LAB中的明度通道(L)专门负责整张图的明暗度,简单的说就是整幅转载 2021-02-19 20:48:11 · 3612 阅读 · 1 评论 -
【论文笔记】多模态融合(Multimodal Fusion)
一般来说,模态是指事物发生或存在的方式,多模态是指两个或者两个以上的模态的各种形式的组合。对每一种信息的来源或者形式,都可以称为一种模态(Modality),目前研究领域中主要是对图像,文本,语音三种模态的处理。之所以要对模态进行融合,是因为不同模态的表现方式不一样,看待事物的角度也会不一样,所以存在一些交叉(所以存在信息冗余),互补(所以比单特征更优秀)的现象,甚至模态间可能还存在多种不同的信息交互,如果能合理的处理多模态信息,就能得到丰富特征信息。...原创 2021-02-18 23:11:05 · 1983 阅读 · 1 评论 -
【论文笔记】Xception(下)
五、实验评估由于它们在规模上的相似性,我们选择将Xception与Inception V3架构进行比较:Xception和Inception V3具有几乎相同数量的参数,因此任何性能差距都不能归因于网络参数量的差异。我们对两个图像分类任务进行了比较:一个是ImageNet数据集上著名的1000类单标签分类任务,另一个是大规模JFT数据集上17000类多标签分类任务。JFT数据集JFT是用于大型图像分类数据集的内部Google数据集,其中包括超过3.5亿张高分辨率图像,这些图像带有来自17,000个原创 2021-02-17 13:42:36 · 309 阅读 · 1 评论 -
python self最基本主要的原理
主要用法在python中self用来表示某个类的实例自己。 使用此关键字可以在python中访问类的属性和方法。 它将属性与给定参数绑定在一起。 我们使用self的原因是Python不使用“ @”语法来引用实例属性。举例class car(): #init method or constructor def __init__(self, model, color): self.model = model self.color = color def show(self): pri原创 2021-02-07 19:07:10 · 440 阅读 · 0 评论 -
An Introduction to different Types of Convolutions in Deep Learning
自己看的转载 2021-02-05 17:43:12 · 198 阅读 · 0 评论 -
卷积操作的三种 padding:valid (no padding), same (or half), full
Valid or no padding:valid顾名思义filter只在valid(有效)区域卷积。如果stride=1,output_size = input_size -( kernel_size -1)Same or half padding:这种padding是让输出尺寸等于输入尺寸的padding。当stride = 1,要补(kernel_size - 1)行(列)零Full padding:Full意味着kernel会一个个遍历所有输入图像像素。当stride = ..原创 2021-02-04 21:48:55 · 924 阅读 · 0 评论 -
kernel和filter在CNN中的区别以及卷积核与卷积层的关系
kernel和filter这两个概念在CNN中的区别根据参考文献可知keras中,当channels=1时,那么filter就是kernel当channels>1时,那么filter就是指一堆kernel其中channels表示卷积核的数量,一般为2的指数次方So this is where a key distinction between terms comes in handy: whereas in the 1 channel case, where the term filt..转载 2021-02-04 19:06:35 · 2114 阅读 · 2 评论 -
分组卷积、通道洗牌、变形卷积核、可分离卷积?盘点卷积神经网络中十大令人拍案叫绝的操作。
转载给自己看转载 2021-02-02 14:12:19 · 659 阅读 · 0 评论 -
TensorFlow学习笔记1
# coding: utf-8from tensorflow.examples.tutorials.mnist import input_dataimport numpy as np# 读取mnist数据集。如果不存在会事先下载。mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)# 看前20张训练图片的labelfor i in range(20): # 得到one-hot表示,形如(0, 1, 0, 0, 0.原创 2020-07-29 14:36:24 · 117 阅读 · 0 评论 -
AlexNet浅析
2012年由Alex Krizhevsky、Ilya_Sutskever、他俩的导师Geoffrey_Hinton联合发布的AlexNet以绝对优势在ImageNet挑战赛上一举夺冠,从此掀起了卷积神经网络的热潮。AlexNet论文《Imagenet-classification-with-deep-convolutional-neural-networks》 论文使用的卷积神经网络(C...原创 2020-03-30 18:14:11 · 395 阅读 · 1 评论 -
深度神经网络(DNN)反向传播算法(Back Propagation)
在深度神经网络(DNN)模型与前向传播算法中,我们对DNN的模型和前向传播算法做了总结,这里我们更进一步,对DNN的反向传播算法(Back Propagation,BP)做一个总结。1. DNN反向传播算法要解决的问题 在了解DNN的反向传播算法前,我们先要知道DNN反向传播算法要解决的问题,也就是说,什么时候我们需要这个反向传播算法? 回到我们监督学习的一般问题,假设我们有m个训...转载 2020-03-25 00:12:58 · 338 阅读 · 0 评论 -
目标检测算法(R-CNN,Fast R-CNN,Faster R-CNN,FPN,YOLOv1-v3)
原文地址R-CNN(Region-based CNN)motivation:之前的视觉任务大多数考虑使用SIFT和HOG特征,而近年来CNN和ImageNet的出现使得图像分类问题取得重大突破,那么这方面的成功能否迁移到PASCAL VOC的目标检测任务上呢?基于这个问题,论文提出了R-CNN。基本步骤:如下图所示,第一步输入图像。第二步使用生成region proposals的方法(有很...转载 2020-03-22 12:18:41 · 778 阅读 · 1 评论 -
CNN经典结构(AlexNet,ZFNet,OverFeat,VGG,GoogleNet,ResNet)
前言 本文主要介绍2012-2015年的经典CNN结构,从AlexNet,ZFNet,OverFeat到VGG,GoogleNetv1-v4,ResNetv1-v2。 在论文笔记:CNN经典结构2中介绍了2016-2017年的几个经典NN结构,WideResNet,FractalNet,DenseNet,ResNeXt,DPN,SENet。另外,在ImageNet历年冠军和相关CNN模型中...转载 2020-03-22 11:32:19 · 798 阅读 · 0 评论 -
深度学习导论与应用实践(电子版)
1.深度学习发展历程深度学习的起源与发展深度学习在图像检测方面的应用2.如何使用深度学习 使用深度学习(机器学习)的目的:寻找一个合适的函数。 例如,例如寻找手写识别函数,候选函数集合为:f,g,h⋯f,g,h\cdotsf,g,h⋯ 学习过程: 监督学习的任务:手写识别3.深度学习方法使用步骤第一步:选择模型 首先需要考虑选择什么样的网络结构、选择多少层...原创 2020-02-09 22:14:46 · 3599 阅读 · 174 评论 -
梯度下降原理小结
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。1.梯度 在微积分里,对于多元函数的参数求∂\partial∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。比如函数f(x,y)f(x,y)f(x,y),分别对x,yx,yx,y求偏导数,求得...转载 2020-02-05 19:01:28 · 168 阅读 · 0 评论 -
感知机原理小结
感知机可以说是最古老的分类方法之一了。在1957年就已经提出了。今天看来它的分类模型在大多数时候泛化能力不强,但是它的原理却值得好好研究。因为研究透了感知机模型,学习支持向量机的话会降低不少难度。同时如果研究透了感知机模型,再学习神经网络,深度学习,也是一个很好的起点。这里将对感知机原理做一个小结。1.感知机模型 感知机的思想很简单,比如我们在一个平台上有很多的男孩女孩,感知机模型就是...转载 2020-02-05 12:48:37 · 284 阅读 · 0 评论 -
深度神经网络(DNN)模型与前向传播算法
转载出处深度神经网络(Deep Neural Networks,以下简称DNN)是深度学习的基础,而要理解DNN,首先我们要理解DNN模型,下面我们就对DNN模型与前向传播算法做一个总结。1.从感知机到神经网络在感知机原理小结中,我们介绍过感知机的模型,它是一个有若干输入和输出的模型,如下图:输入和输出之间学习到了一个线性关系,得到中间输出结果:z=∑i=1mwixi+bz = \su...转载 2020-01-26 15:40:50 · 382 阅读 · 0 评论