
CV经典模型
文章平均质量分 70
CV经典模型
u013250861
这个作者很懒,什么都没留下…
展开
-
CV领域的对比学习综述
第一阶段大概讲了这几篇论文,可以看到它们使用的代理任务是不一样的,有个体判别,有预测未来,还有多视角多模态它们使用的目标函数也不尽相同,有 NCE,有infoNCE,还有NCE的其它变体它们使用的模型也都不一样,比如说invariant spread用了一个编码器;Inst Disc用一个编码器和memory bank;cpc有一个编码器,还有一个自回归模型;cmc可能有两个甚至多个编码器它们做的任务从图像到视频到音频到文字到强化学习,非常的丰富多彩。原创 2022-12-12 15:54:40 · 1133 阅读 · 0 评论 -
CV-CNN-1998:LeNet5模型【CNN的鼻祖】【卷积层+池化层+FC网络+Sigmod层】【贡献:局部感受野、局部连接、参数共享、下采样、池化层】【用于手写体字符识别】
LeNet是卷积网络做识别的开山之作,虽然LeNet5的网络结构现在已经很少使用,但是它对后续卷积网络的发展起到了奠基作用,打下了很好的理论基础。LeNet-5是卷积网络的开上鼻祖,它是用来识别手写邮政编码的,论文可以参考Haffner. Gradient-based learning applied to document recognition.LeNet5 这个网络虽然很小,但是它包含了神经网络的基本模块:卷积层,池化层,全链接层。是其他神经网络模型的基础。...原创 2021-11-17 14:36:14 · 1433 阅读 · 0 评论 -
CV-CNN-2012:AlexNet模型【贡献:5卷积+3个全连接,6000万个参数、65万个神经元、ReLU取代传统激活函数、局部归一化、引入DropOut】【第一个深度CNN】【CNN开篇之作】
《原始论文:ImageNet Classification with Deep Convolutional Neural Networks》参考资料:AlexNet学习笔记卷积神经网络之AlexNetAlexNet详解AlexNet详解2AlexNet详解3AlexNet详细解读论文笔记:CNN经典结构1(AlexNet,ZFNet,OverFeat,VGG,GoogleNet,ResNet)图像分类丨ILSVRC历届冠军网络「从AlexNet到SENet」...原创 2021-08-31 22:02:53 · 191 阅读 · 0 评论 -
CV-CNN-2014:VGG模型【重复堆叠3x3卷积增加网络深度】【设计思想:更深的网络有助于性能的提升;更深的网络不好训练,容易过拟合,所以采用小卷积核】【11层、13层、16层、19层】
2014年,牛津大学计算机视觉组(Visual Geometry Group)和Google DeepMind公司的研究员一起研发出了新的深度卷积神经网络:VGGNet,并取得了ILSVRC2014比赛分类项目的第二名,将 Top-5错误率降到7.3%(第一名是GoogLeNet,也是同年提出的)和定位项目的第一名。它主要的贡献是展示出网络的深度(depth)是算法优良性能的关键部分。...原创 2021-08-31 22:03:55 · 1648 阅读 · 0 评论 -
CV-CNN-2014:GoogLeNet-V1【构建密集的块结构(Inception)来近似最优的稀疏结构】【增加网络的depth和width,但是参数数量却仅为AlexNet的1/12】
2014年,GoogLeNet和VGG是当年ImageNet挑战赛(ILSVRC14)的双雄,GoogLeNet获得了第一名、VGG获得了第二名,这两类模型结构的共同特点是层次更深了。原创 2021-08-31 22:04:39 · 204 阅读 · 0 评论 -
CV-CNN-2015:GoogleNet-V2【首次提出Batch Norm方法:每次先对input数据进行归一化,再送入下层神经网络输入层(解决了协方差偏移问题)】【小的卷积核代替掉大的卷积核】
GoogLeNet凭借其优秀的表现,得到了很多研究人员的学习和使用,因此GoogLeNet团队又对其进行了进一步地发掘改进,产生了升级版本的GoogLeNet。GoogLeNet设计的初衷就是要又准又快,而如果只是单纯的堆叠网络虽然可以提高准确率,但是会导致计算效率有明显的下降,所以如何在不增加过多计算量的同时提高网络的表达能力就成为了一个问题。Inception V2版本的解决方案就是修改Inception的内部计算逻辑,提出了比较特殊的“卷积”计算结构。...原创 2021-08-31 22:09:28 · 153 阅读 · 0 评论 -
CV-CNN-2015:GoogleNet-V3【贡献:卷积核分解(Factorization)减少参数量,比如将7x7分解成两个一维的卷积(1x7,7x1)】【避免表达瓶颈,更深】
Inception V3一个最重要的改进是分解(Factorization),将7x7分解成两个一维的卷积(1x7,7x1),3x3也是一样(1x3,3x1),这样的好处,既可以加速计算,又可以将1个卷积拆成2个卷积,使得网络深度进一步增加,增加了网络的非线性(每增加一层都要进行ReLU)。另外,网络输入从224x224变为了299x299。...原创 2021-09-05 23:56:28 · 552 阅读 · 0 评论 -
CV-CNN-2015:ResNet【残差网络,改善深层网络难训练问题:梯度消失或爆炸导致性能退化】【Bottleneck:用1×1核卷积(减小通道数来降维)、3×3核卷积(不变维)、用1×1核升维】
《原始论文:Deep Residual Learning for Image Recognition》前面描述了一个实验结果现象,在不断加神经网络的深度时,模型准确率会先上升然后达到饱和,再持续增加深度时则会导致准确率下降,示意图如下:那么我们作这样一个假设:假设现有一个比较浅的网络(Shallow Net)已达到了饱和的准确率,这时在它后面再加上几个恒等映射层(identity mapping,也即 y=xy=xy=x,输出=输入),这样就增加了网络的深度,并且起码误差不会增加,也即更深的网络不应该带来原创 2021-08-31 22:05:38 · 1811 阅读 · 0 评论 -
CV-CNN-2015:FaceNet(人脸特征向量提取、计算欧氏距离)【Triplet(三元组) Loss:最大化不同人脸的距离&最小化相同人脸的距离】【可使用Mobilenet作为特征提取网络】
谷歌人脸识别算法,发表于 CVPR 2015,利用相同人脸在不同角度等姿态的照片下有高内聚性,不同人脸有低耦合性,提出使用 cnn + triplet mining 方法,在 LFW 数据集上准确度达到 99.63%。通过 CNN 将人脸映射到欧式空间的特征向量上,实质上:不同图片人脸特征的距离较大;通过相同个体的人脸的距离,总是小于不同个体的人脸这一先验知识训练网络。测试时只需要计算人脸特征Embedding,然后计算距离使用阈值即可判定两张人脸照片是否属于相同的个体。1、输入一张人脸图片。.......原创 2021-11-17 20:32:54 · 4537 阅读 · 2 评论 -
CV-CNN-2016:ResNeXt【ResNet和Inception的结合体】【Inception中每个分支结构相同,无需人为设计】【不增加参数的前提下,提高准确率、减少超参数量】
中心思想:GooLeNet-V4 Inception那边把ResNet拿来搞了Inception-ResNet,这头ResNet也把Inception拿来搞了一个ResNeXt,主要就是单路卷积变成多个支路的多路卷积,不过分组很多,结构一致,进行分组卷积。原创 2021-08-31 22:06:46 · 155 阅读 · 0 评论 -
CV-CNN-2016:DenseNet【相比ResNet,DenseNet提出了一个更激进的密集连接机制:即互相连接所有的层,具体来说就是每个层都会接受其前面所有层作为其额外的输入】
在计算机视觉领域,卷积神经网络(CNN)已经成为最主流的方法,比如最近的GoogLenet,VGG-19,Incepetion等模型。CNN史上的一个里程碑事件是ResNet模型的出现,ResNet可以训练出更深的CNN模型,从而实现更高的准确度。ResNet模型的核心是通过建立前面层与后面层之间的“短路连接”(shortcuts,skip connection),这有助于训练过程中梯度的反向传播,从而能训练出更深的CNN网络。...原创 2021-08-31 22:07:25 · 439 阅读 · 0 评论 -
CV-CNN-2016:GoogleNet-V4【用ResNet模型的残差连接(Residual Connection)思想改进GoogleNet-V3的结构】
Inception V4研究了Inception模块与残差连接的结合。ResNet结构大大地加深了网络深度,还极大地提升了训练速度,同时性能也有提升。Inception V4主要利用残差连接(Residual Connection)来改进V3结构,得到Inception-ResNet-v1,Inception-ResNet-v2,Inception-v4网络。ResNet的残差结构如下:将该结构与Inception相结合,变成下图:通过20个类似的模块组合,Inception-ResNet构建如下:参原创 2021-09-05 23:57:00 · 392 阅读 · 0 评论 -
CV-CNN-2017:SENet【SENet由一些列SE block组成,关注特征的通道关系】【一个SE block的过程分为Squeeze(压缩)和Excitation(激发)两个步骤】
CV-BaseLine07:SENet原创 2021-08-31 22:07:56 · 281 阅读 · 0 评论 -
移动端/嵌入式-CV模型-2017:MobelNets-v1【利用“深度可分离卷积”来减少参数量】【分解卷积层:①各通道分别用3×3的核进行卷积;②各通道用1×1×C的核融合】【α、β调整模型大小】
假设某一网络卷积层,其卷积核大小为3×3,输入通道为16,输出通道为32;常规卷积操作是将32个3×3×16的卷积核作用于16通道的输入图像,则根据卷积层参数量计算公式,卷积计算+卷积参数量+卷积计量量得到所需参数为32*(3316+1)= 4640个。若先用16个、大小为3×3的卷积核(331)作用于16个通道的输入图像,得到了16个特征图,在做融合操作之前,接着用32个大小为1×1的卷积核(1116)遍历上述得到的16个特征图,根据卷积层参数计算公式,所需参数为(331116。.............原创 2022-08-08 07:47:42 · 1065 阅读 · 0 评论 -
CV-人脸识别-2018:ArcFace
本文提出了一个 加性角度边距损失 (Additive Angular Margin Loss, ArcFace),以获取用于人脸识别的高判别度特征 (highly discriminative features)。大量实验表明,ArcFace 始终优于 SOTA,且容易实现,计算开销可忽略不计。SphereFace 假定 最后一个全连接层中的线性变换矩阵 可用作角度空间 (angular space) 中类中心的表示,并以乘法方式惩罚深度特征及其相应权重 (weights) 之间的角度 (angles)。.原创 2022-08-09 23:07:49 · 213 阅读 · 0 评论 -
移动端/嵌入式-CV模型-2018:MobelNets-v2【Inverted Residuals(中间胖两头瘦)、Linear Bottlenecks(每个倒残差的最后一个卷积层使用线性激活函数)】
由于DW、PW都是以Relu作为激活函数,且PW会做降维,再对低维特征做ReLU时会丢失很多信息,所以从高维向低维转换,使用ReLU激活函数可能会造成信息丢失或破坏(所以不使用非线性激活数函数),即在PW这一部分,我们不再使用ReLU激活函数而是使用线性激活函数,如下图。深度学习在图像处理中的应用(tensorflow2.4以及pytorch1.10实现)轻量级网络-Mobilenet系列(v1,v2,v3).............................................原创 2022-08-08 08:23:12 · 1063 阅读 · 0 评论 -
移动端/嵌入式-CV模型-2018:MobileFaceNets【Mobilenet-v2的改进版:①最后的平均池化层使用“可分离深度卷积层”取代,让网络自己学习权重;②ArcFace损失函数】
如下图所示,在使用MobileNetV2等网络进行人脸识别时,平均池化层对FMap-end的Corner Unit和Center Unit给予了同样的权重,但实际上,对于人脸识别来说,中心单元的重要程度显然比角单元重要。近年来,MobilenetV1,ShuffleNet和MobileNetV2等轻量级网络多用于移动终端的视觉识别任务,但是由于人脸结构的特殊性,这些网络在人脸识别任务上并没有获得满意的效果。轻量级模型相对于又深又宽的大模型,具有参数量小、乘加数少的特点,但同时在预测精度上不能有太大的损失。.原创 2022-08-08 08:15:52 · 1366 阅读 · 0 评论 -
移动端/嵌入式-CV模型-2019:MobileNets-v3【①Bottleneck结构中引入SE结构(注意力机制)来计算各通道的重要性、②重新设计耗时层结构、③重新设计激活函数(h-swish)】
《MobileNets-v3原始论文:Searching for MobileNetV3》在bottlenet结构中加入了SE结构,并且放在了depthwise filter之后,如下图。因为SE结构会消耗一定的时间,所以作者在含有SE的结构中,将expansion layer的channel变为原来的1/4,这样作者发现,即提高了精度,同时还没有增加时间消耗。并且SE结构放在了depthwise之后。在mobilenetv2中,在avg pooling之前,存在一个1x1的卷积层,目的是提高特征图的维度,原创 2022-08-08 08:26:07 · 1239 阅读 · 0 评论 -
CV-CNN-2019:EfficientNet【提出了复合模型扩展算法,来综合优化网络宽度(通道,卷积核个数)、深度、分辨率】【复合模型扩展算法同样适用于其他网络结构,精度不变下参数和计算量大减】
EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks参考资料:CNN模型合集 | 25 EfficientNet原创 2021-11-17 20:35:08 · 226 阅读 · 0 评论 -
CV-CNN-2019:HarDNet【提高神经网络边缘推理的计算效率和降低功耗】
《HarDNet: A Low Memory Traffic Network》参考资料:CNN模型合集 | 26 HarDNet原创 2021-11-17 20:37:46 · 960 阅读 · 0 评论