Picture Classification
文章平均质量分 96
图片分类学习笔记
zzzyzh
一个不会踢足球的棋手不是好程序员
展开
-
CV【5】:Layer normalization
对于早前的 CNN 模型来说,大多使用进行归一化,随着在计算机视觉领域掀起的热潮,开始被用于提升传统的 CNN 的性能,在许多工作中展现了不错的提升本文主要是对用法的总结参考资料1参考资料2。原创 2023-02-09 09:54:01 · 1160 阅读 · 1 评论 -
CV【4】:Batch normalization
对于早前的 CNN 模型来说,大多使用进行归一化,随着在计算机视觉领域掀起的热潮,开始被用于提升传统的 CNN 的性能,在许多工作中展现了不错的提升本文主要是对用法的总结和比较参考资料1参考资料2参考资料3。原创 2023-02-07 15:26:52 · 485 阅读 · 0 评论 -
CV【3】:drop_out & drop_path
drop_out和drop_path。原创 2023-01-17 12:00:00 · 1828 阅读 · 0 评论 -
CV-Model【8】:ConvNeXt
随着ViT在计算机视觉领域大放异彩,越来越多的研究人员将工作重心放在上,在计算机视觉领域上CNN难道真的要被完全取代吗?本文长篇分析并设计 CNN 架构的若干技巧,对照的设计理念,渐进式“现代化”改造ResNet,取得了良好的效果,对深度网络的设计具有较大的参考价值分层变形器(如)重新引入了几个 ConvNet 先验,使得 Transformer作为通用视觉骨干实际上是可行的,并在各种视觉任务中表现出显著的性能。然而,这种混合方法的有效性仍然主要归功于的内在优势,而不是的内在归纳偏见。原创 2023-01-31 20:00:00 · 1213 阅读 · 1 评论 -
CV-Model【7】:Swin Transformer
是的一种类型。它通过合并深层的图像斑块(灰色显示)来建立分层的特征图,由于只在每个局部窗口(红色显示)内计算,所以计算复杂度与输入图像大小成线性关系。因此,它可以作为图像分类和密集识别任务的通用backbone。相比之下,以前的视觉变换器产生单一的低分辨率的特征图,并且由于全局的的计算,对输入图像的大小有二次计算的复杂性。本文介绍了一种称为的新视觉,它可以作为CV的通用主干。将从语言适应到视觉方面的挑战来自 两个域之间的差异,例如视觉实体的规模以及相比于文本单词的高分辨率图像像素的巨大差异。原创 2022-10-13 23:23:37 · 1904 阅读 · 1 评论 -
CV-Model【6】:Vision Transformer
或称ViT,是一种用于图像分类的模型,在图像的补丁上采用了类似的结构。一幅图像被分割成固定大小的斑块,然后对每个斑块进行线性嵌入,添加位置嵌入,并将得到的向量序列送入一个标准的编码器。为了进行分类,使用了向序列添加额外的可学习"分类标记"的标准方法虽然架构已成为 NLP 任务的事实标准,但它在 CV 中的应用仍然有限。在视觉上,注意力要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构。原创 2022-10-08 16:04:04 · 2672 阅读 · 6 评论 -
CV-Model【5】:Transformer
是一种模型架构,它摒弃了递归,而是完全依靠注意力机制来得出输入和输出之间的全局依赖关系。在之前,主流的序列转换模型是基于复杂的递归或卷积神经网络,包括一个编码器和一个解码器。也采用了编码器和解码器,但去除递归而采用注意力机制,可以比RNN和CNN等方法明显地实现更多的并行化。原论文侧重于在NLP领域的贡献,所以本文主要针对其提出的和进行分析。原创 2022-10-05 23:26:46 · 1060 阅读 · 0 评论 -
CV-Model【4】:MobileNet v3
本文提出了基于互补搜索技术的组合以及新颖的架构设计的下一代移动互联网。MobileNetV3通过硬件网络架构搜索(NAS)的组合,辅以NetAdapt算法,并随后通过新颖的架构进步进行改进,从而适应移动电话CPU。本文开始探索自动搜索算法和网络设计如何协同工作,以利用互补方法改善整体技术水平。通过这一过程,本文创建了两个新的MobileNet模型以供发布MobileNetV3-Large和MobileNetV3-Small,它们分别针对高资源和低资源使用情况。(LR-ASPP)。............原创 2022-07-31 12:24:34 · 564 阅读 · 0 评论 -
CV-Model【3】:MobileNet v2
在本文中,描述了一种新的移动架构MobileNetV2,它提高了移动模型在多任务和基准测试以及不同模型规模范围内的最新性能。还描述了在大家称为SSDLite的新框架中将这些移动模型应用于对象检测的有效方法。此外,本文演示了如何通过一个简化形式的DeepLabv3(本文称之为MobileDeepLabv3)来构建移动语义分割模型。基于倒置的残差结构,其中shortcutconnections在薄瓶颈层之间。中间扩展层使用轻量级深度方向卷积来过滤作为非线性源的特征。.........原创 2022-07-30 22:01:29 · 717 阅读 · 0 评论 -
CV-Model【2】:MobileNet v1
本文主要对论文进行解读,并解释有关MobileNetV1网络的框架部分本文提出一个在移动端和嵌入式应用高效的分类模型叫做MobileNets,MobileNets基于流线型架构(streamlined),使用深度可分类卷积(depthwise separable convolutions,即Xception变体结构)来构建轻量级深度神经网络。本文介绍两个简单的全局超参数,可有效的在延迟和准确率之间做折中。这些超参数允许使用者依据约束条件选择合适大小的模型。............原创 2022-07-30 11:55:57 · 684 阅读 · 1 评论 -
CV-Model【1】:ResNet
本文是对于提出了ResNet(深度残差网络)神经网络模型的论文的阅读笔记。有关于神经网络模型的实现,可以参考我的另一篇blogResNet-34更深的神经网络更难训练。本文提出了一个残差学习框架,以缓解比以前使用的网络要深得多的网络的训练。该框架使得层能根据其输入来学习残差函数而非原始函数(unreferencedfunctions)。本文提供了全面的依据表明,这些残差网络的优化更简单,而且能由更深的层来获得更高的准确率。....................................原创 2022-07-19 13:07:53 · 936 阅读 · 0 评论 -
CV-Implement【4】:ResNet-34
ResNet是一种卷积神经网络(CNN)架构,它克服了"梯度消失"问题,使得构建具有多达数千个卷积层的网络成为可能,其性能优于较浅的网络。同时,本文与VGG16使用相同的数据集,所以有许多操作与我的另一篇博客VGG16相同,若有看不懂的地方,可以进行一些参考。..................原创 2022-07-17 16:38:56 · 8434 阅读 · 1 评论 -
CV-Implement【3】:VGG16
VGG网络有五种配置,命名为A到E。配置的深度从左(A)到右(B)增加,增加的层数也多。下面是一个描述所有潜在网络结构的表格。所有的配置都遵循结构上的通用模式,只在深度上有区别;从网络A的11个权重层(8个卷积层和3个全连接层),到网络E的19个权重层(16个卷积层和3个全连接层)。卷积层的通道数量相当少,从第一层的64个开始,然后在每个最大集合层之后增加2倍,直到达到512个。本文主要探讨的是D列,即16weightslayers。使用的数据集为CIFAR-10。............原创 2022-07-15 19:12:34 · 1230 阅读 · 0 评论 -
CV-Implement【2】:Alexnet
AlexNet是一个深度卷积神经网络,最初由AlexKrizhevsky和他的同事在2012年开发。它被设计用来为ImageNetLSVRC-2010比赛进行图像分类,在那里它取得了最先进的成绩。本文使用CIFAR10数据集数据集进行训练.........原创 2022-07-15 10:50:07 · 515 阅读 · 0 评论 -
CV-Implement【1】:Mnist
Mnist包括6万张28x28的训练样本,1万张测试样本,可以说是计算机视觉领域的"Hello world"。基于此,本文使用PyTorch复现Mnist,并就代码中的一些语法作展开。原创 2022-07-14 11:29:55 · 451 阅读 · 2 评论 -
CV【2】:卷积与Conv2d
本文基于李宏毅的机器学习网课和csdn以及知乎上的有关资料,整理了关于卷积的部分知识。原创 2022-07-12 15:12:16 · 3882 阅读 · 0 评论 -
CV【1】:transforms
图像变换往往是CV的第一步,合适的图像大小才能传入网络中进行训练以获得合适的结果本文主要对TorchVision文档中包含的与transforms有关的方法进行分类以及解释,其包含的方法在裁剪板块给出,后续板块的方法的具体用法可参考裁剪板块...原创 2022-07-12 21:17:35 · 1655 阅读 · 0 评论