深度学习
文章平均质量分 88
麻花地
这个作者很懒,什么都没留下…
展开
-
华为诺亚实验室VanillaNet学习笔记
基础模型的核心理念是“多而不同”,计算机视觉和自然语言处理领域的惊人成功就是例证。然而,优化的挑战和变压器模型固有的复杂性要求范式向简单性转变。在这项研究中,我们介绍了VanillaNet,一个包含优雅设计的神经网络架构。通过避免高深度、快捷方式和复杂的操作(如自我关注),vanillanet令人耳目一新的简洁却非常强大。每一层都被精心制作得紧凑而直接,非线性激活函数在训练后被修剪以恢复原始结构。VanillaNet克服了固有复杂性的挑战,使其成为资源受限环境的理想选择。原创 2023-05-28 12:54:56 · 1445 阅读 · 0 评论 -
DeepStream-test1-python-demo样例
基于知乎博客解释完成:https://zhuanlan.zhihu.com/p/359079725test1样例的整体流程: 首先数据源元件(filesrc)负责从磁盘上读取视频数据,解析器元件(h264parse)负责对数据进行解析,编码器元件(nvv4l2decoder)负责对数据进行解码,流多路复用器元件(nvstreammux)负责批处理帧以实现最佳推理性能,推理元件(nvinfer)负责实现加速推理,转换器元件(nvvideoconvert)负责将数据格式转换为输出显示支持的格式,可视化元件(原创 2023-03-16 14:14:41 · 791 阅读 · 0 评论 -
Pytorch模型转TensorRT步骤
pytorch模型使用tensorRT加速原创 2023-03-14 16:11:24 · 1802 阅读 · 0 评论 -
EdgeYOLO学习笔记
本文基于最先进的YOLO框架,提出了一种高效、低复杂度、无锚的目标检测器,该检测器可以在边缘计算平台上实时实现。为了有效抑制训练过程中的过拟合,我们开发了一种增强的数据增强方法,并设计了混合随机损失函数来提高小目标的检测精度。在FCOS的启发下,提出了一种更轻、更高效的解耦磁头,在不损失精度的情况下提高了推理速度。原创 2023-03-05 14:09:33 · 1093 阅读 · 3 评论 -
Skip-Attention学习笔记
这项工作旨在提高视觉变换器(ViT)的效率。虽然ViT在每一层中都使用计算成本高昂的自我关注操作,但我们发现这些操作在各层之间高度相关——这是一种关键的冗余,会导致不必要的计算。基于这一观察,我们提出了SKIPAT,这是一种重用来自前一层的自我注意力计算来近似一个或多个后续层的注意力的方法。为了确保跨层重用自我关注块不会降低性能,我们引入了一个简单的参数函数,该函数在计算速度更快的同时,性能优于基线变换器。原创 2023-02-07 12:20:06 · 1571 阅读 · 2 评论 -
MAE-DET学习笔记
在对象检测中,检测主干消耗了整个推理成本的一半以上。最近的研究试图通过借助神经架构搜索(NAS)优化主干架构来降低这一成本。然而,现有的用于对象检测的NAS方法需要数百到数千GPU小时的搜索,这使得它们在快节奏的研究和开发中不切实际。在这项工作中,我们提出了一种新的zero-shotNAS方法来解决这个问题。所提出的方法名为MAE-DET,通过最大熵原理自动设计有效的检测主干,而无需训练网络参数,将架构设计成本降低到几乎零,同时提供最先进的(SOTA)性能。原创 2023-02-06 22:05:00 · 1287 阅读 · 1 评论 -
神经网络图优化与量化模拟
计算图和量化算子的一些规则原创 2023-02-01 22:05:05 · 129 阅读 · 0 评论 -
基于语义分割Ground Truth(GT)转换yolov5图像分割标签(路面积水检测例子)
随着开发者在issues中对 用yolov5做分割任务的呼声高涨,yolov5团队真的在帮开发者解决问题,v6.0版本之后推出了最新的解决方案并配指导教程。之前就有使用改进yolo添加分割头的方式实现目标检测和分割的方法,最新的v7.0版本有了很好的效果,yolov8在分割方面也是重拳出击因此使用yolo进行完成目标检测也是落地项目的一个选择,而且yolo的生态更适合落地,并且实现试试检测。但是目前的公开数据集大部分使用的是其他分割领域模型,当然标签也是适配其他模型。我在做。原创 2023-01-29 11:18:16 · 2536 阅读 · 4 评论 -
基于语义分割Ground Truth(GT)转换yolov5目标检测标签(路面积水检测例子)
语义分割GT数据标签转换为yolov5txt目标检测标签原创 2023-01-28 17:14:07 · 3461 阅读 · 16 评论 -
神经网络加速基础知识
神经网络加速基础知识原创 2023-01-15 21:34:11 · 114 阅读 · 0 评论 -
ConvNeXt V2学习笔记
在改进的架构和更好的表示学习框架的推动下,视觉识别领域在21世纪20年代初实现了快速现代化和性能提升。例如,以ConvNeXt[52]为代表的现代ConvNets在各种场景中都表现出了强大的性能。虽然这些模型最初是为使用ImageNet标签的监督学习而设计的,但它们也可能受益于自监督学习技术,如蒙面自编码器(MAE)[31]。然而,我们发现,简单地结合这两种方法会导致性能不佳。在本文中,我们提出了一个全卷积掩码自编码器框架和一个新的全局响应归一化(GRN)层。原创 2023-01-05 20:50:16 · 6127 阅读 · 2 评论 -
Deformable Attention学习笔记
Transformer 最近在各种视觉任务中表现出卓越的表现。大的(有时甚至是全局的)接受域使Transformer模型比CNN模型具有更高的表示能力。然而,单纯扩大接受野也会引起一些问题。一方面,在ViT中使用密集注意力会导致过多的内存和计算成本,特征会受到超出感兴趣区域的无关部分的影响。另一方面,PVT或Swin Transformer中采用的稀疏注意是数据不可知的,可能会限制建模远程关系的能力。为了解决这些问题,我们提出了一种新的Deformable 自注意模块,原创 2022-11-19 11:17:39 · 8794 阅读 · 0 评论 -
DEFORMABLE DETR学习笔记
DETR最近被提出,以消除在目标检测中需要许多手工设计的组件,同时展示良好的性能。但由于Transformer注意模块在处理图像特征映射时的局限性,其收敛速度慢,特征空间分辨率有限。为了缓解这些问题,我们提出了Deformable 的DETR,它的注意模块只关注参考点周围的一小部分关键采样点。Deformable 的DETR可以比DETR(特别是在小物体上)获得更好的性能,且训练时间少10倍。在COCO基准上的大量实验证明了我们方法的有效性。代码发布在。原创 2022-11-16 21:13:36 · 1415 阅读 · 0 评论 -
DETR学习笔记
我们提出了一种新的方法,将目标检测视为直接集预测问题。我们的方法简化了检测流程,有效地消除了许多手工设计的组件的需求,如非最大抑制过程或锚生成(显式编码关于任务的先验知识)。新框架的主要组成部分称为DEtection TRansformer或DETR,是基于集合的全局损耗,通过二部匹配强制进行唯一的预测,以及一个变压器编码器-解码器架构。给定一个固定的学习对象查询的小集合,DETR推理对象和全局图像上下文之间的关系,直接并行输出最终的预测集合(并行的原因是目标检测过程中没有前后顺序,同时并行可以提高速度)原创 2022-11-14 09:57:10 · 1774 阅读 · 1 评论 -
DINO学习笔记
我们提出了DINO(DETR with Improved deNoising anchOr boxes),一种先进的端到端对象检测器。DINO采用对比的去噪训练方法、混合查询选择方法进行锚点初始化和两次前瞻的盒子预测方法,在性能和效率上都优于以往的类detrr模型。DINO在具有ResNet-50骨干和多尺度特征的COCO上实现了12 epochs 49.4AP和24 epochs 51.3AP,与之前最好的类detr模型DN-DETR相比,分别获得了+6.0AP和+2.7AP的显著改进。原创 2022-11-13 09:54:04 · 6027 阅读 · 0 评论 -
Fast-ParC学习笔记
近年来,T型变压器模型在各个领域都取得了长足的进步。在计算机视觉领域,视觉变压器(ViTs)也成为卷积神经网络(ConvNets)的有力替代品,但由于卷积神经网络和视觉变压器都有各自的优点,所以它们无法取代卷积神经网络。例如,vit善于利用注意机制提取全局特征,而ConvNets则因其强烈的归纳偏差而更有效地建模局部关系。一个自然产生的想法是结合ConvNets和vit的优点来设计新的结构。本文提出了一种新的基本神经网络算子——位置感知圆卷积(ParC)及其加速版Fast-ParC。原创 2022-11-09 11:17:25 · 1556 阅读 · 0 评论 -
Neurocomputing投稿记录
Neurocomputing投稿记录原创 2022-11-03 10:24:00 · 17378 阅读 · 110 评论 -
FPN特征金字塔结构学习笔记
特征金字塔是识别系统中的基本组件,用于检测不同尺度的对象。但最近的深度学习对象检测器已经避免了金字塔表示,部分原因是它们是计算和内存密集型的。在本文中,我们利用深度卷积网络固有的多尺度金字塔层次结构来构造具有边际额外成本的特征金字塔。开发了一种具有横向连接的自顶向下架构,用于在所有尺度上构建高级语义特征图。这种被称为特征金字塔网络(FPN)的体系结构在几个应用中作为通用特征提取器显示出显著的改进。原创 2022-10-03 22:36:08 · 1849 阅读 · 0 评论 -
EdgeNeXt轻量化学习笔记
为了追求不断提高的精度,通常需要开发大型和复杂的神经网络。这种模型需要很高的计算资源,因此不能部署在边缘设备上。由于资源高效的通用网络在多个应用领域都很有用,因此构建资源高效的通用网络具有很大的意义。在这项工作中,我们努力有效地结合CNN和Transformer模型的优势,并提出了一种新的高效混合架构EdgeNeXt。特别是在EdgeNeXt中,我们引入了分割深度转置注意(SDTA)编码器,该编码器将输入张量分割为多个信道组,并利用深度卷积和跨信道维度的自我注意来隐式增加接收场并编码多尺度特征。......原创 2022-08-05 11:27:42 · 2139 阅读 · 0 评论 -
MetaFormer/PoolFormer学习笔记及代码
变形金刚在计算机视觉任务中显示出巨大的潜力。人们普遍认为,他们基于注意力的模块对他们的能力贡献最大。然而,最近的研究表明,Transformers中基于注意力的模块可以被空间MLP所取代,得到的模型仍然表现良好。基于这一观察**,我们假设变压器的一般架构,而不是特定的令牌混频器模块,对模型的性能更为重要**。为了验证这一点,我们故意用令人尴尬的简单空间池算子替换Transformers中的注意力模块,以仅进行基本令牌混合。.........原创 2022-08-03 10:30:02 · 1658 阅读 · 0 评论 -
EfficientFormer学习笔记
视觉变换器(ViT)在计算机视觉任务方面取得了快速进展,在各种基准上取得了有希望的结果。然而,由于大量的参数和模型设计,例如注意机制,基于ViT的模型通常比轻量级卷积网络慢数倍。因此,为实时应用部署ViT尤其具有挑战性,尤其是在资源受限的硬件上,如移动设备上。最近的研究试图通过网络架构搜索或与MobileNet块的混合设计来降低ViT的计算复杂度,但推理速度仍然不令人满意。这就引出了一个重要的问题**变压器能否像MobileNet一样快速运行,同时获得高性能?代码和型号将在https。......原创 2022-08-02 15:57:13 · 1940 阅读 · 0 评论 -
Next-ViT学习笔记
由于复杂的注意力机制和模型设计,大多数现有的视觉变换器(VIT)在现实的工业部署场景(例如TensorRT和CoreML)中的性能不如卷积神经网络(CNN)。视觉神经网络的设计能否像CNN一样快速推断,并像VIT一样强大?最近的工作试图设计CNN-Transformer混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。为此,我们提出了一种新一代视觉Transformer,用于在现实工业场景中高效部署,即Next-ViT,从延迟/准确性权衡的角度来看,它在CNN和ViT中占主导地位。。...原创 2022-08-01 11:38:46 · 2951 阅读 · 1 评论 -
RepOptimizer学习笔记
神经网络中设计良好的结构反映了纳入模型的先验知识。然而,虽然不同的模型具有不同的先验,但我们习惯于使用模型无关优化器(例如SGD)对其进行训练。在本文中,我们提出了一种新的范式,将特定于模型的先验知识合并到优化器中,并使用它们来训练通用(简单)模型。作为实现,我们提出了一种新的方法,通过根据一组特定于模型的超参数修改梯度来添加先验知识,称为梯度重新参数化,优化器称为重新优化器。...原创 2022-07-29 10:50:30 · 925 阅读 · 0 评论 -
CBAM学习笔记
我们提出了卷积块注意模块(CBAM),这是一种用于前馈卷积神经网络的简单而有效的注意模块。给定一个中间特征图,我们的模块沿两个独立的维度(通道和空间)顺序推断注意力图,然后将注意力图乘以输入特征图以进行自适应特征细化。由于CBAM是一个轻量级的通用模块,它可以无缝集成到任何CNN架构中,开销可以忽略不计,并且可以与基础CNN一起进行端到端的培训。我们通过在ImageNet-1K、MSCOCO检测和VOC2007检测数据集上的大量实验来验证我们的CBAM。...原创 2022-07-27 09:37:08 · 1771 阅读 · 0 评论 -
MobileVIT学习笔记
轻型卷积神经网络(CNN)实际上是用于移动视觉任务的。他们的空间归纳偏差允许他们在不同的视觉任务中以较少的参数学习表征。然而,这些网络在空间上是局部的。为了学习全局表示,采用了基于自注意力的视觉变换器(VIT)。与CNN不同,VIT是重量级的。在本文中,我们提出了以下问题是否有可能结合CNN和ViTs的优势,为移动视觉任务构建一个重量轻、延迟低的网络?为此,我们介绍了MobileViT,一种用于移动设备的轻型通用视觉transformers。...原创 2022-07-26 17:47:29 · 1542 阅读 · 0 评论 -
EPSANet学习笔记
EPSANet: An Efficient Pyramid Squeeze Attention Block on Convolutional Neural Network最近,研究表明,在深度卷积神经网络中嵌入注意力模块可以有效提高其性能。在这项工作中,提出了一种新的轻量级和有效的注意力方法,称为金字塔挤压注意力(PSA)模块。通过在ResNet的瓶颈块中用PSA模块替换3x3卷积,获得了一种新的表示块,称为有效金字塔挤压注意力(EPSA)。EPSA块可以很容易地作为即插即用组件添加到成熟的主干网络中,并且原创 2022-07-11 11:44:44 · 3174 阅读 · 0 评论 -
韩松老师模型压缩--三步剪枝法学习笔记
Learning both Weights and Connections for Efficient Neural Networks神经网络是计算密集型和内存密集型的,因此很难在嵌入式系统上部署。此外,传统网络在训练开始前修复架构;因此,培训无法改善架构。为了解决这些局限性,我们描述了一种方法,通过只学习重要的连接,在不影响其准确性的情况下,将神经网络所需的存储和计算减少一个数量级。我们的方法使用三步方法修剪冗余连接。首先,我们训练网络以了解哪些连接是重要的。接下来,我们删减不重要的连接。最后,我们重新训原创 2022-07-07 10:33:51 · 856 阅读 · 0 评论 -
DeiT学习笔记
Training data-efficient image transformers & distillation through attention最近,纯粹基于注意力的神经网络被证明可以解决图像理解任务,例如图像分类。这些高性能的视觉transformers使用大型基础设施预先训练了数亿张图像,因此限制了其采用。在这项工作中,我们仅通过在Imagenet上进行训练来生产具有竞争力的无卷积变压器。我们用不到3天的时间在一台电脑上训练他们。我们的参考视觉transformers(86M参数)在没有外部数据的原创 2022-07-05 17:28:08 · 1236 阅读 · 0 评论 -
PVTV2--Pyramid Vision TransformerV2学习笔记
PVTv2: Improved Baselines with Pyramid Vision TransformerTransformer最近在计算机视觉方面取得了令人鼓舞的进展。在这项工作中,我们通过添加三种设计来改进原始金字塔视觉变换器(PVTv1),提出了新的基线,包括**(1)线性复杂度注意层,(2)重叠面片嵌入和(3)卷积前馈网络**。通过这些修改,PVTv2将PVTv1的计算复杂度降低为线性,并在基本视觉任务(如分类、检测和分割)上实现了显著改进。值得注意的是,拟议的PVTv2实现了与最近的工作(原创 2022-07-04 16:58:55 · 2357 阅读 · 0 评论 -
XCiT学习笔记
在自然语言处理取得巨大成功后,transformers最近在计算机视觉方面显示出了很大的前景。transformers底层的自注意力操作产生了所有令牌(即文字或图像块)之间的全局交互,并允许在卷积的局部交互之外对图像数据进行灵活建模。然而,**这种灵活性在时间和内存方面具有二次复杂性,阻碍了对长序列和高分辨率图像的应用**。我们提出了一种“transposed”版本的自注意力,它跨特征通道而不是令牌进行操作,**其中交互基于键和查询之间的互协方差矩阵**。由此产生的 cross-covariance att原创 2022-07-03 10:29:13 · 2932 阅读 · 0 评论 -
UTNet论文笔记
UTNet论文笔记UTNet: A Hybrid Transformer Architecture for Medical Image SegmentationAbstractTransformer架构已经在许多自然语言处理任务中取得了成功。然而,它在医学视觉中的应用仍然没有得到很大的探索。在这项研究中,我们提出了UTNet,一种简单但功能强大的混合Transformer结构,它将自我注意集成到卷积神经网络中,用于增强医学图像分割。UTNet在编码器和解码器中都应用了自我关注模块,以最小的开销捕获不同原创 2022-05-07 11:11:37 · 1155 阅读 · 0 评论 -
Xception学习笔记
我们将卷积神经网络中的Inception modules解释为**正则卷积和深度可分离卷积运算**(深度卷积后接点卷积)之间的中间步骤(**Inception结构是介于传统卷积和深度可分离卷积的中间形态,Xception彻底解耦为深度可分离卷积**)。从这个角度来看,深度可分离卷积可以理解为具有最大数量塔的Inception modules。这一观察结果引导我们提出了一种新的深卷积神经网络结构,其灵感来自于初始阶段,Inception modules已被深度可分离卷积所取代。我们表明,这种被称为**Exce原创 2022-06-28 11:26:26 · 640 阅读 · 0 评论 -
基于OPENCV和图像减法的PCB缺陷检测
在PCB制造业中,生产的一个最重要方面是质量检查。PCB板经历了从面板切割到层压的大量生产过程,一块板上的一个缺陷将使整个板过时。随着电子电器需求的日益增长,对更高质量元器件的需求也在不断增长。由于商用AOI价格高昂,许多制造商无法进行自动检测。在这方面,计算机视觉可以为商业AOI提供一种替代方案,以帮助小型制造商进行自动检测。图像减法和斑点检测使用户能够轻松地发现PCB中......原创 2022-06-26 16:44:52 · 4118 阅读 · 5 评论 -
DenseNet网络论文学习笔记
Densely Connected Convolutional Networks最近的研究表明,如果卷积网络包含接近输入层和接近输出层之间的较短连接,则卷积网络可以更深入、更准确、更有效地进行训练。在本文中,我们接受了这一观察结果,并引入了稠密卷积网络(DenseNet),它以前馈方式将每一层连接到其他每一层。传统的L层卷积网络有L个连接,每个层和后续层之间有一个连接,而我们的网络有L(L+1/2个直接连接。对于每一层,所有先前层的特征图用作输入,其自身的特征图用作所有后续层的输入。DenseNets有几个原创 2022-06-26 10:05:54 · 482 阅读 · 0 评论 -
旷世轻量化网络ShuffulNetV2学习笔记
ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design目前,神经网络体系结构的设计主要由计算复杂性的间接度量来指导,即FLOPs.。然而,速度等直接指标也取决于其他因素,如内存访问成本和平台特性。因此,这项工作建议评估目标平台上的直接度量,而不仅仅是考虑FLOPs.。基于一系列的控制实验,这项工作得出了一些有效网络设计的实用指南。因此,提出了一种新的体系结构,称为ShuffleNet V2。......原创 2022-06-24 10:29:48 · 705 阅读 · 0 评论 -
Squeeze-and-Excitation Networks学习笔记
卷积神经网络(CNN)的核心构建模块是卷积算子,它使网络能够通过融合每层局部感受野中的空间和通道信息来构建信息特征。大量先前的研究已经调查了这种关系的空间成分,试图通过提高整个特征层次的空间编码质量来增强CNN的代表性。在这项工作中,我们将重点放在通道关系上,并提出了一种新的体系结构单元,我们称之为“挤压和激励”(SE)块,它通过显式建模通道之间的相互依赖性,自适应地重新校准通道特征响应。我们表明,这些块可以堆叠在一起,形成SENet体系结构,可............原创 2022-06-08 20:53:07 · 699 阅读 · 0 评论 -
Transformer模型新SOTA--fully attentional networks (FANs) 学习笔记
最近的研究表明,视觉转换器(VIT)对**各种腐蚀(损坏、变体)具有很强的鲁棒性**。虽然这一特性部分归因于自我注意机制,但仍缺乏系统的理解。在本文中,我们研究了自我注意在学习鲁棒表征中的作用。我们的研究受到Vision Transformers中新兴视觉分组的有趣特性的推动,**这表明自我注意可以通过改进中级表征来提高稳健性**。我们进一步提出了一系列**全注意网络**(FANs),通过整合注意通道处理设计来加强这一能力。我们在各种层次主干上全面验证了设计。我们的模型在ImageNet-1k和ImageN原创 2022-06-07 16:11:40 · 1132 阅读 · 0 评论 -
全MLP结构模型学习笔记
卷积神经网络(CNN)是计算机视觉的常用模型。最近,基于注意力的网络,如Vision Transformer,也变得很流行。在本文中,我们表明,虽然卷积和注意力都足以获得良好的性能,但它们都不是必需的。我们提出了MLPMixer,一种专门基于多层感知器(MLP)的体系结构。MLP混合器包含两种类型的层:一种是将MLP独立应用于图像patches的层(即“混合”每个位置的特征),另一种是跨patches应用MLP的层(即“混合”空间信息)。......原创 2022-06-04 10:29:24 · 3208 阅读 · 0 评论 -
糖尿病视网膜病变研究的基准:分割、分级和可转移性笔记
糖尿病视网膜病变研究的基准:分割、分级和可转移性笔记A Benchmark for Studying Diabetic Retinopathy: Segmentation, Grading, and TransferabilityAbstract糖尿病患者有患糖尿病视网膜病变(DR)的风险。当高血糖水平导致视网膜血管受损时,就会发生这种疾病。由于深度学习的巨大成功,计算机辅助DR诊断已成为DR早期诊断和严重程度分级的一个有前途的工具。然而,由于缺乏具有一致性和细粒度注释的训练数据,大多数当前的DR诊断原创 2022-05-24 14:39:29 · 3727 阅读 · 0 评论 -
基于深度学习的检测和阶段分级优化糖尿病视网膜病变的诊断
基于深度学习的检测和阶段分级优化糖尿病视网膜病变的诊断Deep learning‐based detection and stage grading for optimising diagnosis of diabetic retinopathyAbstract**Aims:**建立一种自动化方法,使用基于深度学习的病变检测和分期,识别可参考的糖尿病视网膜病变(DR),定义为中度非增殖性DR及以上。Materials and Methods:一组12252张符合条件的糖尿病患者眼底图像由45名持证眼原创 2022-05-16 09:10:42 · 2928 阅读 · 2 评论