自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

AI公园

专注分享干货的AI公众号,图像处理,NLP,深度学习,机器学习,应有尽有.希望大家能在AI的乐园中快乐玩耍.

  • 博客(783)
  • 资源 (3)
  • 收藏
  • 关注

转载 在目标检测中大物体的重要性

导读实验表明,对大型物体赋予更大的权重可以提高所有尺寸物体的检测分数,从而整体提升目标检测器的性能(在COCO val 2017数据集上使用InternImage-T模型,小物体检测精度提高2个百分点,中等物体提高2个百分点,大物体提高4个百分点)。摘要目标检测模型是一类重要的机器学习算法,旨在识别并精确定位图像或视频中的物体。然而,由于物体的大小差异以及用于训练的图像和标签的质量,这项任务有时会...

2024-09-19 09:24:08 174

转载 PETDet: 通过增强候选目标来提升二阶段细粒度目标检测的能力

导读带有ResNet-50-FPN的PETDet在FAIR1M-v2.0上的AP达到了48.81%,大幅超越了强大的基线Oriented R-CNN,提升了4.91%。摘要细粒度目标检测(Fine-grained Object Detection, FGOD)在传统目标检测的基础上增加了细粒度识别的能力。在最近的两阶段FGOD方法中,区域提议(region proposal)作为连接检测与细粒度识...

2024-09-18 12:02:10 375

转载 替换一行代码,通过正交映射来增强细粒度目标检测的能力

导读本文介绍了正射映射(OM),这是一种简单而有效的方法,旨在解决FGOD中固有的语义混淆问题。我们的方法可以无缝集成到现有的目标检测框架中,仅需替换一行代码即可。摘要细粒度目标检测(FGOD)是高分辨率航拍图像分析中的一个关键任务。本文介绍了正射映射(OM),这是一种简单而有效的方法,旨在解决FGOD中固有的语义混淆问题。OM通过解耦分类分支最后一层的特征与基于类别的正交向量基,在特征空间中引入...

2024-09-14 12:00:22 213

转载 TinyDet: 轻量级通用小目标物体检测器

导读小目标检测性能尤为出色,TinyDet-S和TinyDet-M的AP值是ThunderNet的两倍。摘要小目标检测要求检测头在图像特征图上扫描大量位置,这对计算和能量效率型轻量级通用检测器来说极其困难。为了在有限的计算资源下准确检测小目标,我们提出了一种计算复杂度极低的两阶段轻量级检测框架,并将其命名为TinyDet。该框架支持高分辨率特征图用于密集锚定,以便更好地覆盖小目标,提出了稀疏连接卷...

2024-09-13 12:00:20 243

转载 使用全卷积网络来解析直线的实时直线检测器

导读我们介绍了一种单阶段的全卷积线条解析网络(F-Clip),该网络能够从图像中检测线条段。所提出的网络非常简单且灵活,并且可以根据不同应用在速度与精度之间做出优雅的权衡。摘要我们介绍了一种单阶段的全卷积线条解析网络(F-Clip),该网络能够从图像中检测线条段。所提出的网络非常简单且灵活,并且可以根据不同应用在速度与精度之间做出优雅的权衡。F-Clip通过预测每条线的中心位置、长度和角度来端到端...

2024-09-12 12:01:15 292

转载 ELSD: 高效的直线分割检测器和描述器

导读我们提出了新颖的高效线段检测与描述器,用于同时在图像中检测线段并提取其描述符。我们设计了一种单阶段紧凑型模型,并提出使用中点、角度和长度作为线段的最小化表示形式,这也保证了中心对称性。摘要我们提出了新颖的高效线段检测与描述器(Efficient Line Segment Detector and Descriptor,简称ELSD),用于同时在图像中检测线段并提取其描述符。不同于传统流水线分别...

2024-09-11 12:00:45 287

转载 LW-DETR: 用轻量Transform来代替YOLO的实时目标检测

导读在本文中,我们介绍了一种轻量级检测Transformer(LW-DETR),其在实时目标检测方面优于YOLO系列模型。该架构简单地堆叠了一个ViT编码器、一个投影器和一个浅层DETR解码器。摘要在本文中,我们介绍了一种轻量级检测Transformer(LW-DETR),其在实时目标检测方面优于YOLO系列模型。该架构简单地堆叠了一个ViT编码器、一个投影器和一个浅层DETR解码器。我们的方法利...

2024-09-10 12:00:37 343

转载 DQ-DETR:使用动态query数量的DETR来做小目标检测

导读使用固定数量查询的DETR类方法使得它们不适合应用于大多包含微小目标且不同图像之间实例数量不平衡的航空数据集。DQ-DETR利用类别计数模块预测的密度图来动态调整目标查询的数量及其位置信息。摘要尽管之前的DETR类方法在通用目标检测任务上取得了成功,但对于微小目标检测来说仍然是一个挑战,因为这些方法中的目标查询的位置信息并未针对检测微小目标进行定制,而微小目标的尺度远小于常规目标。此外,使用固...

2024-09-09 12:00:42 252

转载 RT-DETRv2技术报告:修改训练策略,无损提升性能

导读在可变形注意力中为不同尺度的特征设置不同的采样点数,提出了一种可选的离散采样算子来替代 RT-DETR 中特有的 grid_sample 算子,提出了动态数据增强和自适应超参数定制,以在不损失速度的情况下提升性能。摘要在本报告中,我们介绍了RT-DETRv2,这是一种改进的实时检测Transformer(RT-DETR)。RT-DETRv2 在先前的实时检测器 RT-DETR 的基础上进行了改...

2024-09-06 12:05:08 187

转载 小目标检测:使用去噪FPN的Transformer RCNN

导读在本文中,我们提出了一种新的框架,即去噪特征金字塔网络结合Trans R-CNN(简称DNTR),以提升微小物体检测的性能。摘要尽管计算机视觉领域取得了显著进展,但微小物体的精确检测仍然是一个重大挑战,这主要是由于这些物体在图像数据中的像素表示极为有限。这一挑战在地质科学和遥感领域尤为突出,因为高保真度的微小物体检测可以促进从城市规划到环境监测等一系列应用的发展。在本文中,我们提出了一种新的框...

2024-09-04 12:00:13 213

转载 通过学习采样来学习上采样

导读我们提出了DySample,一个极其轻量级且高效的动态上采样器。在五个密集预测任务上超越了其他上采样器,包括语义分割、目标检测、实例分割、全景分割和单目深度估计。摘要我们提出了DySample,一个极其轻量级且高效的动态上采样器。虽然最近基于内核的动态上采样器如CARAFE、FADE和SAPA展现出了显著的性能提升,但它们引入了大量的计算负担,主要是由于耗时的动态卷积以及用于生成动态内核的额外...

2024-09-03 12:00:31 286

转载 小目标物体检测方法:基于距离相似度的标签分配策略

导读该策略不仅考虑了位置和形状的相似性,而且还能够自适应地学习超参数,确保它可以适应不同的数据集及数据集中各种大小的物体。摘要小物体检测正成为计算机视觉中最具挑战性的任务之一,这是因为物体尺寸有限以及信息不足。标签分配策略是影响物体检测准确性的一个关键因素。尽管存在一些针对小物体有效的标签分配策略,但大多数策略侧重于降低对边界框的敏感度以增加正样本的数量,并且具有一些需要设置的固定超参数。然而,更...

2024-09-02 12:01:07 208

原创 Relation DETR:探索显式的位置先验关系在目标检测中的作用

导读在DETR中加入位置关系先验,在相同的配置下,Relation-DETR相比于DINO实现了显著的性能提升(+2.0% AP),并在COCO val2017上达到了最先进的性能(1×设置下达到51.7% AP,2×设置下达到52.1% AP),并且具有更快的收敛速度(仅训练2个周期即可达到超过40% AP)。摘要本文提出了一种增强DETR(DEtection TRansformer)收敛性和性...

2024-08-30 12:01:22 1542

转载 Hyper-YOLO:在目标检测中加入超图计算

导读使用超图计算的方法来进行高阶特征的交互。摘要我们介绍了一种新的物体检测方法Hyper-YOLO,该方法集成了超图计算来捕捉视觉特征之间的复杂高阶相关性。传统的YOLO模型虽然强大,但在其颈部设计中存在局限性,这限制了跨层级特征的整合以及高阶特征间相互关系的利用。为了解决这些挑战,我们提出了基于超图计算的语义收集与分散框架(Hypergraph Computation Empowered Sem...

2024-08-29 13:25:53 585

转载 Unified-IoU:进行高质量的目标检测

导读我们提出了一种新的IoU损失函数,称为Unified-IoU(UIoU),该函数更加关注不同质量预测框之间的权重分配。具体来说,通过一种新颖的方式动态转移模型对低质量预测框的关注到高质量预测框上,以增强模型在高精度或密集数据集上的检测性能,并实现训练速度上的平衡。摘要目标检测是计算机视觉领域的重要组成部分,而预测框的回归准确性直接决定了目标检测的效果。作为模型训练的关键,交并比(IoU, In...

2024-08-28 12:01:27 115

原创 LETNet:使用高效Transformer和CNN的轻量级实时语义分割网络

导读LETNet将U形CNN与Transformer有效地结合在一起,以胶囊嵌入的方式弥补彼此的不足。同时,精心设计的轻量级空洞bottleneck(LDB)模块和特征增强(FE)模块对从头开始的训练产生了积极影响。在具有挑战性的数据集上进行的大量实验表明,LETNet在准确性和效率之间的平衡方面表现出色。摘要在过去十年里,卷积神经网络(CNNs)在语义分割任务中展现出了重要地位。尽管CNN模型表...

2024-08-27 12:00:15 1046

原创 GPUNet:来自NVIDIA为GPU定制的卷积网络

导读在1毫秒内,GPUNet比EfficientNet-X和FBNetV3快2倍,同时准确率更高。摘要定制卷积神经网络(CNN)以供生产使用一直是深度学习实践者面临的挑战。本文旨在通过建立一个包含经优化模型的模型库来加速模型定制过程,这些模型按照其推理延迟进行分级,并利用神经架构搜索(NAS)技术。为了实现这一目标,我们构建了一个分布式NAS系统,在一个新颖的搜索空间中进行搜索,该搜索空间包含了影...

2024-08-26 12:03:27 773

原创 STDCNet:对BiSeNet做语义分割的重新思考

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”导读来自美团,对Bisenet进行了网络结构的优化,并利用了边界信息作为监督信号。摘要BiSeNet已被证明是一种用于实时分割的流行双流网络。然而,其通过额外路径编码空间信息的原则耗时较长,而且从预训练任务(如图像分类)借用的主干网络由于缺乏针对特定任务的设计,可能对图像分割不够高效。为了解决这些问题,我们提出了一种名为短期密集拼接网络(S...

2024-08-23 12:01:27 946

原创 PP-LiteSeg: 来自baidu的实时语义分割模型

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”导读来自baidu,提出了一种名为PP-LiteSeg的实时且手工设计的网络。摘要现实世界的应用对语义分割方法有很高的需求。虽然借助深度学习,语义分割取得了显著的进步,但实时方法的表现并不令人满意。在本工作中,我们提出了一种新的轻量级模型 PP-LiteSeg,用于实时语义分割任务。具体来说,我们提出了一个灵活且轻量级的解码器(FLD)来减...

2024-08-22 14:00:16 623

原创 PIDNet: 受PID控制器启发的实时语义分割网络

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”导读来自德克萨斯A&M大学,语义分割网络从两分支网络进化到了三分支网络。摘要两分支网络架构在实时语义分割任务中展现出了其高效性和有效性。然而,直接融合高分辨率细节和低频上下文会带来详细特征容易被周围上下文信息淹没的缺点。这种过冲现象限制了现有两分支模型分割准确性的提升。在本文中,我们建立了卷积神经网络(CNN)与比例积分微分(PID...

2024-08-21 12:00:32 962

原创 RTFormer: 使用Transformer的实时语义分割的高效设计

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”导读来自baidu,使用Transformer达到实时推理的语义分割。摘要最近,基于Transformer的网络在语义分割任务中展现了令人印象深刻的效果。然而,在实时语义分割领域,纯基于CNN的方法仍然占据主导地位,这是由于Transformer的时间消耗计算机制。我们提出了RTFormer,这是一种高效的双分辨率变换器,用于实时语义分割,...

2024-08-20 12:02:37 855

原创 DSNet:在语义分割中使用空洞卷积的新方法

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”导读来自中科院,高效利用空洞卷积提升语义分割性能的新方法。摘要空洞卷积作为一种方法被用于增加语义分割任务中的感受野。然而,在先前的语义分割工作中,很少在模型的浅层中使用空洞卷积。我们重新审视了现代卷积神经网络 (CNN) 中空洞卷积的设计,并证明了使用大内核来应用空洞卷积的概念可能是一个更强大的范式。我们提出了三条指导原则来更高效地应用空洞...

2024-08-19 12:01:38 720

原创 SCTNet:使用了Transformer语义信息的单分支CNN实时分割方法

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”导读来自美团,SCTNet既享受到了Transformer语义分支提供的丰富语义表示,又保持了轻量级单分支CNN的高效率。摘要最近的实时语义分割方法通常采用额外的语义分支来追求丰富的长距离上下文。然而,这个额外的分支会导致不必要的计算开销,并减慢推理速度。为了解决这一困境,我们提出了SCTNet,这是一种具有Transformer语义信息的...

2024-08-16 12:00:48 830

原创 《多级聚合与递归对齐架构用于高效的并行推理分割网络》论文解读

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”导读来自西北工业大学,设计了一种新的语义分割网络架构。摘要实时语义分割是实际应用中的关键研究领域。然而,许多方法过于强调降低计算复杂度和模型大小,而在很大程度上牺牲了准确性。为了解决这个问题,我们提出了一种针对语义分割任务定制的并行推理网络,以实现速度和准确性之间的良好平衡。我们采用浅层主干网络以确保实时速度,并提出了三个核心组件来弥补因减...

2024-08-15 12:02:42 948

原创 重参数化双分辨率实时语义分割网络

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”导读论文解读《Reparameterizable Dual-Resolution Network for Real-time Semantic Segmentation》Reparameterizable Dual-Resolution Network for Real-time Semantic Segmentation摘要语义分割在诸如...

2024-08-14 12:02:52 798

转载 如何使用Florence-2来做计算机视觉任务

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”作者:Ajay Kumar Reddy编译:ronghuaiyang导读在这篇指南中,我们将深入了解这款由微软发布的名为Florence-2的模型,它旨在解决多种不同的视觉任务。引言原始Transformer的引入为当前的大型语言模型铺平了道路。同样,在引入变换器模型之后,视觉变换器(ViT)也被提出。就像擅长理解文本和根据响应生成文本的变...

2024-08-13 12:00:24 157

转载 理解LLM中的模型量化

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”作者:Shaoni Mukherjee编译:ronghuaiyang导读在本文中,我们将探讨一种广泛采用的技术,用于减小大型语言模型(LLM)的大小和计算需求,以便将这些模型部署到边缘设备上。在本文中,我们将探讨一种广泛采用的技术,用于减小大型语言模型(LLM)的大小和计算需求,以便将这些模型部署到边缘设备上。这项技术称为模型量化。它使得人...

2024-08-12 12:04:28 28

转载 Google Research:使用文本到图像模型和合成数据平滑地编辑物体的材料属性

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”作者:Mark Matthews and Yuanzhen Li, Software Engineers, Google Research编译:ronghuaiyang导读我们介绍了一种方法,该方法通过参数化编辑图像中物体的材质属性(如颜色、光泽度或透明度)来增强图像生成模型。我们介绍了一种方法,该方法通过参数化编辑图像中物体的材质属性(如...

2024-08-09 09:00:10 30

转载 隐藏的瓶颈:GPU内存层次结构如何影响您的计算体验

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”作者:Melani Maheswaran编译:ronghuaiyang导读在本文中,我们将探讨GPU内存层次结构背后的机制。引言GPU内存层次结构 正逐渐成为深度学习研究者和实践者的关注焦点。通过构建关于内存层次结构的理解,开发者可以最小化内存访问延迟、最大化内存带宽并降低功耗,从而缩短处理时间、加速数据传输并实现成本效益更高的计算使用。深...

2024-08-08 09:00:55 47

转载 SAM 2:来自Meta的下一代视频图像分割模型

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”作者:Shaoni Mukherjee编译:ronghuaiyang导读继llama 3.1成功发布之后,Meta于7月29日宣布了SAM2,这是一个统一的模型,用于图像和视频中的实时物体分割,并已达到了业界领先的表现。在本文中,我们将探讨SAM2,它是原始SAM的扩展版本,能够处理图像和视频。SAM2在实时物体分割方面表现出色,通过提示和...

2024-08-07 09:01:28 104

转载 AR和VR中的计算机视觉

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”作者:Nico Klingler编译:ronghuaiyang导读增强现实(AR)和虚拟现实(VR)正在彻底改变我们与外部世界的互动方式。即便是在引人入胜的沉浸式叙事和交互体验背后,这一切魔法都是通过尖端技术的精妙协调创造出来的。增强现实(AR)与虚拟现实(VR):计算机视觉引领混合现实体验增强现实(AR)和虚拟现实(VR)正在彻底改变我们...

2024-08-06 10:31:50 68

转载 计算机视觉在机器人技术中的应用 —— 自动化革命

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”作者:Nico Klingler编译:ronghuaiyang导读我们最期待的计算机视觉应用之一是机器人技术领域。通过将计算机视觉、自然语言处理、机械学和物理学等学科相结合,我们有望见证与机器人互动方式的重大变革。我们最期待的计算机视觉应用之一是机器人技术领域。通过将计算机视觉、自然语言处理、机械学和物理学等学科相结合,我们有望见证与机器人...

2024-08-05 09:52:28 44

转载 图像配准及其应用

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”作者:Nico Klingler编译:ronghuaiyang导读在许多计算机视觉应用中(例如物体跟踪和医学成像),需要将同一物体(或场景)从不同视角、不同时间或不同条件下拍摄的两张或多张图像对齐。在许多计算机视觉应用中(例如物体跟踪和医学成像),需要将同一物体(或场景)从不同视角、不同时间或不同条件下拍摄的两张或多张图像对齐。图像配准算法...

2024-08-02 09:02:09 86

转载 模态:计算机视觉的多维度语言

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”作者:Gaudenz Boesch编译:ronghuaiyang导读在人类的角度来看,modality 的含义指的是触觉、味觉、嗅觉、视觉和听觉这些感官。然而,AI 系统可以通过与各种传感器和输出机制的集成来通过额外的数据类型进行交互。"Modality" 的含义被定义为“某种事物存在的特定方式或被体验或表达的方式”。在人工智能领域,我们使...

2024-08-01 09:32:52 50

转载 计算机视觉中的图像融合

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”作者:Nico Klingler编译:ronghuaiyang导读在许多计算机视觉应用中(例如机器人运动和医学成像),需要将多个图像的相关信息整合到单一图像中。这种图像融合可以提供更高的可靠性、准确性和数据质量。在许多计算机视觉应用中(例如机器人运动和医学成像),需要将多个图像的相关信息整合到单一图像中。这种图像融合可以提供更高的可靠性、准...

2024-07-31 09:13:23 98

转载 LLMs 时代之后的大型视觉模型 (LVMs) 新时代:方法、示例、应用场景

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”作者:Springs编译:ronghuaiyang导读让我们来看看大型视觉模型是如何进入生成式人工智能市场的,它们的工作原理以及它们在实际商业生活中可以被特别应用于哪些地方。在本文中,我们将尝试向您展示 LVM 的起源、方法、应用场景以及不同的示例。引言根据Authority Hacker 研究,目前全球大约有 35% 的企业使用人工智能。...

2024-07-30 09:00:35 247

转载 大视觉模型:举例,7个用例和2024年的挑战

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”作者:Cem Dilmegani编译:ronghuaiyang导读本文将解释大型视觉模型的概念、结构及潜在的商业应用场景。大型视觉模型(LVMs)已经在计算机视觉领域取得了重大进展。起初,这些模型擅长理解和解释复杂的图像数据。然而,它们在不同行业间有效扩展的能力构成了一项挑战。解决方案是开发更为专业化、面向特定领域的模型。这些先进的模型不仅...

2024-07-29 09:00:36 109

转载 文本嵌入能够完美编码文本信息吗?

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”作者:Jack Morris编译:ronghuaiyang导读文本嵌入是否可以还原文本信息?向量数据库的兴起近年来,随着生成式AI的迅速发展,众多企业纷纷寻求将AI融入其业务之中。其中最常见的做法之一是构建能够回答有关文档数据库内信息的问题的AI系统。解决此类问题的大多数方案都基于一项关键技术:增强检索生成(RAG)。RAG系统的概览这是现...

2024-07-26 09:00:37 27

转载 2024学习生成式AI的最佳路线图

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”作者:Yana Khare编译:ronghuaiyang导读本文深入探讨了2024年最佳生成式AI路线图的细节,引领我们穿越动态进展、新兴趋势以及定义这一尖端领域的变革应用。引言在日新月异的人工智能领域,生成式AI犹如创新的灯塔,不断拓展创造力与智慧的边界。随着我们步入充满希望的2024年景观,探索生成式AI潜力的呼唤吸引了爱好者、研究者和...

2024-07-25 09:00:57 85

转载 使用LLMs来生成合成数据

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”作者:Kritin Vongthongsri编译:ronghuaiyang导读如果我告诉你,现在有可能在几分钟内生成数千个高质量的测试案例,这些案例你过去可能要花费数周时间精心制作,你会怎么想?Using LLMs for Synthetic Data Generation: The Definitive Guide构建大规模、全面的数据集...

2024-07-24 09:00:22 67

matlab图像处理工具箱pdf,英文版

matlab的官方文档,英文版pdf,带目录,包括各种常用函数的使用,非常好用,可作为学习教材,也可作为技术手册查询。

2015-01-16

freescale,imx6,Vivante.2D.API

freescaler的imx6芯片中GPU2D的api相关文档

2014-08-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除