小白学视觉-CSDN博客

原创【荐读IEEE TPAMI】深度卷积神经网络的结构化剪枝：综述

深度卷积神经网络（CNNs）的卓越性能通常归因于它们更深更宽的架构，这可能会带来显著的计算成本。因此，修剪神经网络已经引起了人们的兴趣，因为它有效地降低了存储和计算成本。与导致非结构化模型的权重修剪不同，结构化修剪提供了通过产生对硬件实现友好的模型来实现现实加速的好处。结构化修剪的特殊要求导致了众多新挑战的发现和创新解决方案的开发。本文综述了深度CNNs结构化修剪的最新进展。我们总结了并比较了最先进的结构化修剪技术，这些技术涉及滤波器排序方法、正则化方法、动态执行、神经架构搜索、彩票假设以及修剪的应用。

2024-05-24 06:38:30 158

原创【荐读IEEE TPAMI】DeepM2M2CDL：深度多尺度多模态卷积字典学习网络

作者：Xin Deng; Jingyi Xu; Fangyuan Gao; Xiancheng Sun; Mai Xu源码链接： https://github.com/JingyiXu404/TPAMI-DeepM2CDL对于多模态图像处理，由于模态间的复杂依赖性，网络的可解释性至关重要。最近，一个有前景的研究方向是通过展开策略将字典学习整合到深度学习中，以实现可解释的网络。然而，现有的多模态字典学习模型都是单层和单尺度的，这限制了其表示能力。在本文中，我们首先介绍了一个多尺度多模态卷积字典学习（M2CDL

2024-05-22 22:30:00 1429

原创【荐读 IEEE TRO】深度卷积神经网络的结构化剪枝综述

题目：[Structured Pruning for Deep Convolutional Neural Networks: A Survey (https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10330640)深度卷积神经网络的结构化剪枝综述作者：Yang He；Lingao Xiao摘要深度卷积神经网络（CNNs）的显著性能通常归因于其更深和更宽的架构，但这也带来了显著的计算成本。因此，剪枝神经网络引起了广泛关注，因为它

2024-05-22 19:30:00 817

原创【荐读IEEE TPAMI】Growing Like a Tree: 从图骨架树中识别主干

作者：Zhongyu Huang; Yingheng Wang; Chaozhuo Li; Huiguang He源码：https://github.com/zhongyu1998/GTR图神经网络（GNNs）多年来一直以消息传递范式为基础，在广泛的应用领域取得了巨大成功。尽管这一范式具有优雅性，但它为图级任务带来了几个意想不到的挑战，例如长距离问题、信息瓶颈、过度压缩现象和有限的表达能力。在本研究中，我们旨在克服这些主要挑战，并打破图级任务中传统的“节点和边中心”思维模式。为此，我们从信息影响的角度对信

2024-05-21 20:30:00 652

原创【荐读 IEEE TPAMI】Bi-DexHands: 迈向人类水平的双手灵巧操控

实现机器人在灵巧操控方面的人类水平仍然是一个关键的开放问题。即使是简单的灵巧操控任务，由于自由度的高数量和异构代理（例如，手指关节）之间合作的需求，也带来了显著的困难。尽管一些研究人员已经利用强化学习（RL）来控制单手操控物体，但需要双手协调合作的任务仍然未被充分探索，因为适合的环境较少，这可能导致困难和次优性能。为了应对这些挑战，我们介绍了Bi-DexHands，这是一个具有两只灵巧手的模拟器，包含20个双手操控任务和数千个目标对象，旨在基于认知科学研究匹配不同水平的人类运动技能。

2024-05-21 19:30:00 669

原创【荐读IEEE TPAMI】Anti-UAV410: 一种用于野外追踪无人机的热红外基准测试与定制化方案

无人机（Unmanned Aerial Vehicles，UAVs），也称为无人飞行器，在红外视频中的感知对于有效的反无人机任务至关重要。然而，现有的无人机跟踪数据集在目标尺寸和属性分布特征方面存在局限性，无法完全代表复杂的现实场景。为了解决这个问题，我们引入了一个名为Anti-UAV410的通用红外无人机跟踪基准。该基准包含总共410个视频，超过438 K个手动注释的边界框。为了应对复杂环境中无人机跟踪的挑战，我们提出了一种新的方法，称为孪生无人机跟踪器（SiamDT）。

2024-05-20 21:45:00 1115

原创【荐读 IEEE TPAMI】一种灵活的EM类噪声数据聚类算法

作者：Violeta Roizman; Matthieu Jonckheere; Frédéric Pascal尽管非常流行，但众所周知，高斯混合模型（Gaussian mixture model）的期望最大化（Expectation-Maximization，EM）算法在处理非高斯分布或存在异常值或噪声时表现不佳。在本文中，我们提出了一种灵活的类EM聚类算法（Flexible EM-like Clustering Algorithm，FEMCA）：设计了一种新的聚类算法，遵循EM过程。它基于对聚类中心和协

2024-05-20 19:15:00 913

原创【荐读IEEE TPAMI】用于快速视图合成的级联和通用化的神经辐射场

我们提出了一种级联和可泛化的神经辐射场方法，用于视图合成。最近的泛化视图合成方法可以使用一组附近的输入视图渲染高质量的新视图。然而，由于神经辐射场的均匀点采样特性，渲染速度仍然很慢。现有的特定场景方法可以有效地训练和渲染新视图，但不能泛化到未见过的数据。我们的方法通过提出两个新颖的模块来解决快速和泛化视图合成的问题：一个粗略的辐射场预测器和一个基于卷积的神经渲染器。该架构基于隐式神经场推断一致的场景几何，并使用单个GPU高效渲染新视图。

2024-05-19 20:00:00 829

原创【荐读IJCV】基于自适应递归网络的少样本立体匹配算法及其高领域适应性

基于深度学习的立体匹配算法因其在机器人视觉和自动驾驶等领域的优异表现而得到了广泛的研究。然而，这些算法需要大量的标记数据进行训练，并面临领域适应性不足的问题，这限制了它们的应用性和灵活性。本文针对这两个缺陷，提出了一个少样本训练的立体匹配模型，具有高领域适应性。在模型中，立体匹配被构建为在可能的解空间中的动态优化问题，并提出了一种多尺度匹配成本计算方法，以获得应用场景的可能解空间。此外，设计了一个自适应递归的3D卷积神经网络，以从可能的解空间中确定最优解。

2024-05-19 19:45:00 715

原创【荐读 IEEE IJCV】基于并行卡尔曼滤波器的高效通用GPU多目标跟踪方法

基于均匀假设的卡尔曼滤波器一直是跟踪器中关键的运动估计模块。然而，当应用于大规模目标跟踪场景时，它在非均匀运动建模和计算效率方面存在局限性。为了解决这些问题，我们提出了一种新颖的并行卡尔曼滤波器（PKF），它简化了传统的状态变量，以减少计算负载并实现有效的非均匀建模。在PKF中，我们提出了一种非均匀公式，通过将时间间隔Δt从常量转换为与位移相关的变量来模拟非均匀运动，并将减速策略纳入公式的控制输入模型中，以解决多目标跟踪（MOT）中的逃逸问题；

2024-05-18 19:45:00 783

原创【荐读IEEE TPAMI】基于模型的强化学习与独立想象力

在基于视觉的交互系统中，世界模型学习行动的后果。然而，在实际场景中，如自动驾驶，存在不可控制的动态，这些动态独立于或与行动信号稀疏相关，这使得学习有效的世界模型变得具有挑战性。为了解决这个问题，我们提出了Iso-Dream++，这是一种基于模型的强化学习方法，具有两个主要贡献。首先，我们优化了逆动力学，鼓励世界模型从环境混合的时空变化中隔离出可控制的状态转换。其次，我们基于解耦的潜在想象进行策略优化，我们将不可控制的状态滚动到未来，并将其与当前可控制的状态自适应地关联起来。

2024-05-18 19:15:00 937

转载【荐读IEEE TPAMI】图神经网络的并行与分布式执行：深入并发性分析

点击上方“PaperEveryday”，选择加"星标"或“置顶”顶会论文解读，第一时间分享题目：Parallel and Distributed Graph Neural Networks: An In-Depth Concurrency Analysis图神经网络的并行与分布式执行：深入并发性分析作者：Maciej Besta 和 Torsten Hoeﬂer摘要图神经网络（GNNs）是深度学习...

2024-05-16 10:05:59 6

转载一文了解人形机器人产业沿革及进展

点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达2023年5月特斯拉展示了Tesla Bot人形机器人“擎天柱”( Optimus )的全新型号。该款人形机器人不仅会模仿人类动作，还可以完成物品分类、抓力控制等更复杂的任务。该款人形机器人结合了特斯拉的AI技术，即基于视觉神经网络神经系统预测能力的自动驾驶技术，具有极强算力的DOJO D1超级计算机芯片，Dojo 架构拥有一个...

2024-05-16 10:05:59 9

转载【荐读IEEE TPAMI】DNA家族：利用块级监督策略增强权重共享的神经网络架构搜索...

点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达DNA Family: Boosting Weight-Sharing NAS With Block-Wise Supervisions题目：DNA家族：利用块级监督策略增强权重共享的神经网络架构搜索作者：Guangrun Wang , Member, IEEE, Changlin Li , Liuchun Yuan, Jief...

2024-05-15 10:05:39 7

转载今年，扩散模型还有什么可做的方向？

通往AGI之路，扩散模型强势登场，突破了以往模型限制，如VAEs的后验分布对齐问题、GANs的不稳定性等，凭借逼真的生成样本能力，席卷CV、NLP、多模态学习等研究领域，相关论文层出不穷，其中，大热的两篇研究综述，全面梳理了扩散模型基础、算法到应用，看完即入门，涌现超多idea！继上周好评的综述直播课，研梦非凡5月17日邀请了大模型资深算法工程师魏导师，为大家独家详解另一篇综述：《扩散模型综述—方...

2024-05-15 10:05:39 14

转载实操教程｜使用图像分割来做缺陷检测的一个例子

点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达作者丨Vinithavn来源丨AI公园1. 介绍什么是物体检测？给定一张图像，我们人类可以识别图像中的物体。例如，我们可以检测图像中是否有汽车，树木，人等。如果我们可以分析图像并检测物体，我们可以教机器做同样的事情吗?答案是肯定的。随着深度学习和计算机视觉的兴起，我们可以实现目标检测的自动化。我们可以建立深度学习和计算机视觉模...

2024-05-15 10:05:39 12

转载坏了，我的RTX 3090 GPU在对我唱歌！

点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达机器之心编辑部这你敢信？！在一个昏暗的机箱里，一台 RTX 3090 GPU「唱」着经典英语儿歌《一闪一闪亮晶晶》（Twinkle,Twinkle,Little Star）的旋律。这不是灵异事件，也不是科幻电影，而是一位 AI 科学家在「整活」。这位科学家名叫 Vrushank Desai。据他介绍，机箱中的旋律是由 GPU 的...

2024-05-14 10:05:50 8

转载三维目标检测之ROS可视化

1. 思路通过ros来实现点云消息的订阅和检测框bbox消息的发布，来实现一个检测效果的可视化功能。2. 实验环境Ubuntu16.04cuda 10.1ros-kinetic检测环境主要依托OpenPCDet，环境搭建可参考我的这篇博客3. 步骤1. 前提条件已经搭建过了OpenPCDet。已经搭建了ROS环境，我用的是kinetic版本，用其他版本应该也可以。2. 编译环境创建一个工作空间并进...

2024-05-14 10:05:50 11

转载【荐读IEEE TPAMI】关于部分标签学习平均损失的鲁棒性

点击上方“计算机书童”，选择加"星标"或“置顶”顶会论文解读，第一时间分题目：On the Robustness of Average Losses for Partial-Label Learning关于部分标签学习平均损失的鲁棒性作者：Jiaqi Lv; Biao Liu; Gang Niu; LeiFeng ,NingXu; XinGeng; MiaoXu; BoAn; Masashi Su...

2024-05-14 10:05:50 7

转载性能超Transformer！Mamba系列论文整理分享

Mamba01Mamba作为一种新型的选择性状态空间模型方法，在语言建模方面可以媲美Transformer，并且目前已经有了很多结合Mamba的研究成果。那么，今天我就整理了Mamba经典论文+Mamba大模型/遥感/医学/综述等论文合集。论文合集获取方式如下：添加课程回复"Mamba"01.Mamba: Linear-Time Sequence Modeling with Selective S...

2024-05-14 10:05:50 15

原创【荐读 IEEE TPAMI】DNA Family_ Boosting Weight-Sharing NAS With Block-Wise Supervisions

神经架构搜索（NAS）旨在通过机器自动设计神经架构，被认为是自动机器学习的关键步骤。其中一类值得注意的NAS方法是权重共享NAS，它显著提高了搜索效率，并允许NAS算法在普通计算机上运行。尽管备受期待，但这类方法在搜索有效性上存在不足。通过使用泛化界限工具，我们展示了导致这一缺点的原因是潜在的不可靠架构评分，这是由于可能架构的搜索空间过大造成的。为了解决这个问题，我们将一个大型搜索空间模块化为具有较小搜索空间的块，并开发了一组使用蒸馏神经架构（DNA）技术的模型。

2024-05-13 12:32:34 603 1

原创【荐读 IEEE TPAMI】Parallel and Distributed Graph Neural Networks_ An In-Depth Concurrency Analysis

图神经网络（GNNs）是深度学习中最强大的工具之一。它们通常在无结构网络上解决复杂问题，如节点分类、图分类或链接预测，准确度很高。然而，GNNs 的推理和训练都很复杂，并且它们独特地结合了不规则图处理的特征与密集和规则计算。这种复杂性使得在现代大规模并行架构上有效执行 GNNs 变得非常具有挑战性。为了缓解这个问题，我们首先设计了一个 GNNs 中并行性的分类法，考虑了数据和模型并行性以及不同形式的流水线处理。

2024-05-13 12:31:17 681

原创【荐读 IEEE TPAMI】CADC++_ Advanced Consensus-Aware Dynamic Convolution for Co-Salient Object Detection

在给定一组相关图像进行共同显著对象检测（Co-SOD）时，人类首先从整个组中总结共识线索，然后在每张图像中搜索共同显著对象。大多数先前的方法在总结阶段没有考虑鲁棒性、可扩展性或稳定性，并在搜索阶段采用简单的融合策略来融合共识和图像特征。我们的工作提出了一种新颖的共识感知动态卷积（CADC）模型，直接从“总结和搜索”的角度出发，明确有效地执行Co-SOD。在总结阶段，我们通过池化方法提取鲁棒的个体图像特征，并通过自注意力将它们整合以生成共识特征，从而建模可扩展性和稳定性。

2024-05-13 12:29:06 682

原创【荐读IEEE TPAMI】通过摄像机选择重新识别个人

题目：Revisiting Person Re-Identification by Camera Selection通过摄像机选择重新识别个人作者：Yi-Xing Peng; Yuanxun Li; Wei-Shi Zheng摘要行人重识别（Person Re-ID）是视觉监控中的一个基础任务。给定目标人物的查询图像，传统的Re-ID专注于候选图像与查询图像之间的成对相似性。然而，传统Re-ID并未评估检索结果的一致性，即排名最前的图像是否包含同一个人，这在某些应用中是有风险的，例如遗漏了患者经过

2024-05-13 12:26:48 256

原创【荐读IEEE TPAMI】无监督去雨：非对称对比学习与自相似性相遇

大多数现有的基于学习的去雨方法都是在合成的雨-清洁对上进行有监督训练的。合成雨与真实雨之间的领域差距使它们在复杂的真实雨场景中的泛化能力降低。此外，现有方法主要独立利用图像或雨层的属性，很少有方法考虑它们之间的相互排斥关系。为了解决这一困境，我们探索了每层内部的内在自相似性以及两层之间的相互排斥性，并提出了一种无监督的非局部对比学习（NLCL）去雨方法。非局部自相似性图像块作为正样本被紧密地拉在一起，而雨块作为负样本则被显著地推开，反之亦然。

2024-05-13 12:24:06 632

原创【荐读IEEE TRO】通过仿生优化提高仿生机器人肘-前臂系统的性能

本文详细阐述了一种创新的机器人肘-前臂系统设计的制定和验证，该系统模仿了人类肌肉骨骼系统的复杂生物力学。传统的机器人模型常常低估了软组织的重要功能，软组织在紧凑性、安全性、稳定性和运动范围之间提供了折衷。与之相反，本研究提出了一个全面的生物关节复制，包括骨骼、软骨、韧带和肌腱，最终形成了一个仿生机器人。研究强调了人类肘部和前臂的结构紧凑和稳定性，这归功于三骨框架和多样化的软组织。该方法涉及对人体解剖学的全面检查，其次是对软组织对原型机器人肘-前臂系统稳定性贡献的理论探索。

2024-05-13 12:21:39 667

原创【荐读IEEE TPAMI】超快速深度车道检测与混合锚驱动序数分类

现代方法主要将车道检测视为像素级分割问题，这在解决效率和具有挑战性场景（如严重遮挡和极端光照条件）的问题上存在困难。受人类感知的启发，我们在严重遮挡和极端光照条件下识别车道主要依赖于上下文和全局信息。基于这一观察，我们提出了一种新颖、简单但有效的公式，旨在实现超快速度和解决具有挑战性场景的问题。具体来说，我们将车道检测过程视为一个使用全局特征的锚驱动序数分类问题。首先，我们使用一系列混合（行和列）锚上的稀疏坐标来表示车道。借助锚驱动的表示，我们随后将车道检测任务重新构建为序数分类问题以获取车道的坐标。

2024-05-13 12:18:47 776

Python视觉实战项目31讲.pdf

空空如也