- 博客(4689)
- 资源 (2)
- 收藏
- 关注
原创 【荐读IEEE TPAMI】基于模型的强化学习与独立想象力
在基于视觉的交互系统中,世界模型学习行动的后果。然而,在实际场景中,如自动驾驶,存在不可控制的动态,这些动态独立于或与行动信号稀疏相关,这使得学习有效的世界模型变得具有挑战性。为了解决这个问题,我们提出了Iso-Dream++,这是一种基于模型的强化学习方法,具有两个主要贡献。首先,我们优化了逆动力学,鼓励世界模型从环境混合的时空变化中隔离出可控制的状态转换。其次,我们基于解耦的潜在想象进行策略优化,我们将不可控制的状态滚动到未来,并将其与当前可控制的状态自适应地关联起来。
2024-05-18 19:15:00
1114
原创 【荐读IEEE TPAMI】无监督去雨:非对称对比学习与自相似性相遇
大多数现有的基于学习的去雨方法都是在合成的雨-清洁对上进行有监督训练的。合成雨与真实雨之间的领域差距使它们在复杂的真实雨场景中的泛化能力降低。此外,现有方法主要独立利用图像或雨层的属性,很少有方法考虑它们之间的相互排斥关系。为了解决这一困境,我们探索了每层内部的内在自相似性以及两层之间的相互排斥性,并提出了一种无监督的非局部对比学习(NLCL)去雨方法。非局部自相似性图像块作为正样本被紧密地拉在一起,而雨块作为负样本则被显著地推开,反之亦然。
2024-05-13 12:24:06
882
原创 TPAMI 2024 | 广义线性因果网络的联邦学习
题目:Federated Learning of Generalized Linear Causal Networks广义线性因果网络的联邦学习作者:Qiaoling Ye; Arash A. Amini; Qing Zhou摘要因果发现,即从数据中推断变量之间的因果关系,是科学中的一个基本问题。如今,由于对数据隐私问题的日益关注,分布式数据收集、处理和存储发生了转变。为了满足分布式因果发现的迫切需求,我们提出了一种新的联合有向无环图(DAG)学习方法,称为分布式退火正则化似然分数(DARLS),
2024-11-13 09:30:00
11
原创 TPAMI 2024 | 面向对未知对抗性攻击具有泛化鲁棒性的元不变性防御
尽管为计算机视觉任务提供了高性能的解决方案,但深度神经网络(DNN)模型已被证明极易受到对抗性攻击的影响。当前的防御主要集中在已知攻击上,但对未知攻击的对抗性鲁棒性却严重被忽视。此外,常用的自适应学习和微调技术在对抗性防御中不适用,因为在部署时本质上是一个零样本问题。因此,为了应对这一挑战,我们提出了一种名为Meta Invariance Defense(MID)的攻击不可知防御方法。
2024-11-13 09:30:00
8
原创 TPAMI 2024 | MO-MIX:基于深度强化学习的多目标多智能体协同决策
深度强化学习(RL)已被广泛应用于解决复杂的决策问题。在许多现实世界的场景中,任务通常有多个相互冲突的目标,并且可能需要多个智能体进行合作,这些是多目标多智能体决策问题。然而,在这个交叉领域的研究工作还相对较少。现有的方法仅限于单独的领域,并且只能处理具有单一目标的多智能体决策,或者具有单一智能体的多目标决策。在本文中,我们提出了MO-MIX来解决多目标多智能体强化学习(MOMARL)问题。我们的方法基于集中训练与分散执行(CTDE)框架。
2024-11-12 09:30:00
116
原创 TPAMI 2024 | 用于主动目标检测的多实例差异化学习
尽管图像识别的主动学习取得了实质性进展,但缺乏对目标检测中实例级主动学习的系统研究。在本文中,我们提出了一种将实例不确定性计算与图像不确定性估计统一起来的方法,用于信息图像选择,创建了一种用于实例级主动学习的多实例差异化学习(MIDL)方法。MIDL包括一个分类器预测差异化模块和一个多实例差异化模块。前者利用两个对抗性实例分类器在标记集和未标记集上进行训练,以估计未标记集的实例不确定性。后者将未标记图像视为实例包,并使用多实例学习方式中的实例分类模型重新估计图像-实例不确定性。
2024-11-12 09:30:00
230
转载 顶刊解读 TRGS | 位置-时间感知Transformer用于遥感变化检测
点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达A Position-Temporal Awareness Transformer for Remote Sensing Change Detection位置-时间感知Transformer用于遥感变化检测作者:Yikun Liu, Kuikui Wang, Mingsong Li, Yuwen Huang, Gongping ...
2024-11-11 10:05:34
13
原创 TPAMI 2024 | STMixer: 一种单阶段稀疏动作检测器
我们将动作查询以解耦的方式定义。具体来说,我们将动作查询分解为空间查询Qs∈RN×L×DQs∈RN×L×D、位置查询Qp∈RN×L×4Qp∈RN×L×4和时间查询Qt∈RN×DQt∈RN×D。N代表查询的数量,而D表示每个查询的维度。L代表输出框的时间长度。对于关键帧动作检测,L1L = 1L1,因为它只需要在关键帧上预测动作框。对于动作管检测,LTL = TLT。
2024-11-11 09:30:00
115
原创 TPAMI 2024 | 使用合成负样本的混合开放集分割
题目: Hybrid Open-Set Segmentation With Synthetic Negative Data使用合成负样本的混合开放集分割作者:Matej Grcic,Sinisa Segvic摘要开放集分割可以通过补充封闭集分类与异常检测来构想。许多现有的密集异常检测器通过生成模型对常规数据进行建模或与负数据进行区分。这两种方法优化了不同的目标,因此表现出不同的失败模式。因此,我们提出了一种新颖的异常得分,它融合了生成和判别的提示。我们的得分可以通过升级任何封闭集分割模型,以实现数据
2024-11-11 09:30:00
109
转载 Gemini 可以进行目标检测了!
点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达我们对Gemini印象深刻的多模态能力已经很熟悉了,特别是在涉及图像数据推理时——无论是涉及图像描述、OCR、分类,还是识别图像中的特定内容。与其开放模型对应物PaliGemma不同,Gemini模型并没有明确针对目标检测任务进行训练。这一事实促使我进行一些实验并撰写这篇博客。PaliGemma链接:https://ai....
2024-11-10 10:06:00
9
转载 去他的顶会顶刊!我就想发个论文毕个业!
点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达各位课题开拓者,你们是否经常挣扎在:毕业时间的紧迫:看着日历一天天翻过,毕业的日期越来越近,而论文的完成度却似乎停滞不前永不停歇的组会:导师每周要开组会,油尽灯枯毫无进展,没有内容可以分享无尽的调研报告:占用大量时间查找文献,给老板打工写毫无意义的调研报告毫不了解的前沿:无法阅读论文时间,辛苦想的idea,发现几年前已经发表面对...
2024-11-10 10:06:00
20
原创 TPAMI 2024 | DeepNet: 将Transformer扩展到1000层
— 在本文中,我们提出了一种简单而有效的方法来稳定极深的Transformer。具体来说,我们引入了一种新的归一化函数(DEEPNORM),用于修改Transformer中的残差连接,并伴随着理论上推导出的初始化。深入的理论分析表明,模型更新可以以稳定的方式被限制。所提出的方法结合了Post-LN的良好性能和Pre-LN的稳定训练这两个最佳方面,使DEEPNORM成为首选的替代方案。
2024-11-10 09:30:00
13
原创 TPAMI 2024 | PPDM++: 用于快速准确检测人-物交互的并行点检测与匹配
题目:PPDM++: Parallel Point Detection and Matching for Fast and Accurate HOI DetectionPPDM++: 用于快速准确检测人-物交互的并行点检测与匹配作者:Yue Liao, Si Liu, Yulu Gao, Aixi Zhang, Zhimin Li, Fei Wang, and Bo Li摘要人-物交互(HOI)检测旨在通过检测交互三元组来理解人类活动。先前的HOI检测方法采用两阶段实例驱动范式。然而,第一阶段生成的
2024-11-10 09:30:00
18
原创 TPAMI 2024 | 基于原型的语义分割
题目:Prototype-Based Semantic Segmentation基于原型的语义分割作者:Tianfei Zhou; Wenguan Wang摘要基于深度学习的语义分割解决方案在过去十年中取得了令人信服的结果。这些解决方案涵盖了不同的网络架构(基于FCN或基于注意力),以及各种掩码解码方案(基于参数化softmax或基于像素查询)。尽管存在分歧,但可以通过将softmax权重或查询向量解释为可学习的类原型,将它们归为统一的框架。基于这一原型视角,我们揭示了参数化分割模式中的固有局限性
2024-11-09 22:23:05
24
原创 TPAMI 2024 | PERF: 从单张全景图生成全景神经辐射场
神经辐射场(NeRF)在给定多视角图像时,在新视角合成任务上取得了显著进展。最近,一些研究尝试利用3D先验知识,从单张图像中训练NeRF。然而,它们主要关注有限视角且包含少量遮挡的情况,这大大限制了其在真实世界中的360度全景场景中的扩展性,尤其是在存在大面积遮挡时。在本文中,我们提出了PERF,一个从单张全景图训练全景神经辐射场的360度新视角合成框架。值得注意的是,PERF允许在复杂场景中进行3D漫游,而无需繁琐的图像收集。
2024-11-09 22:21:43
15
转载 EMF-former:一种用于医学图像分割的高效且内存友好的Transformer
点击下方“ReadingPapers”卡片,每天获取顶刊论文解读论文信息题目:EMF-former: An Efficient and Memory-Friendly Transformer for Medical Image SegmentationEMF-former:一种用于医学图像分割的高效且内存友好的Transformer作者:Zhaoquan Hao, Hongyan Quan, an...
2024-11-08 10:06:09
19
转载 一位上海交大教授的深度学习五年研究总结
点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达作者:许志钦,上海交通大学,编辑:极市平台作者注记我是2017年11月开始接触深度学习,至今刚好五年。2019年10月入职上海交大,至今三年,刚好第一阶段考核。2022年8月19号,我在第一届中国机器学习与科学应用大会做大会报告,总结这五年的研究以及展望未来的方向。本文是该报告里关于理论方面的研究总结(做了一点扩展)。报告视频链...
2024-11-08 10:06:09
23
转载 图像特征提取与匹配技术
点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达作者:william链接:https://zhuanlan.zhihu.com/p/133301967文仅分享,侵删特征提取和匹配是许多计算机视觉应用中的一个重要任务,广泛运用在运动结构、图像检索、目标检测等领域。每个计算机视觉初学者最先了解的特征检测器几乎都是1988年发布的HARRIS。在之后的几十年时间内各种各样的特征检测...
2024-11-08 10:06:09
51
转载 招生信息 | 香港大学杜泓阳教授团队博士招生
点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达实验室及导师介绍网络智能与计算生态系统实验室(NICE Lab)由杜泓阳教授领导,他在香港大学担任助理教授,并在南洋理工大学获得博士学位,曾在北京交通大学获得学士学位。NICE Lab 专注于人工智能与计算机网络的交叉领域,致力于推进下一代智能网络和分布式AI系统的发展。研究领域我们的研究主要涵盖以下两个方向:AI for N...
2024-11-07 10:24:43
16
转载 GASA-UNet:用于医学图像分割的全局轴向自注意力U-Net
点击下方“ReadingPapers”卡片,每天获取顶刊论文解读论文信息题目:GASA-UNet: Global Axial Self-Attention U-Net for 3D Medical Image SegmentationGASA-UNet:用于3D医学图像分割的全局轴向自注意力U-Net作者:Chengkun Sun,Russell Stevens Terry,Jiang Bian,...
2024-11-07 10:24:43
26
转载 多尺度注意力融合图网络在遥感建筑变化检测中的应用
点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达Multiscale Attention Fusion Graph Network for Remote Sensing Building Change Detection多尺度注意力融合图网络在遥感建筑变化检测中的应用作者:Yu Shangguan , Jinjiang Li , Zheng Chen , Lu Ren , a...
2024-11-06 10:06:07
26
转载 招生信息 | 香港大学计算机视觉与机器智能实验室(CVMI Lab)博士招生
点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达实验室概览香港大学电子与电气工程系的计算机视觉与机器智能实验室(CVMI Lab)致力于赋予机器感知、理解和重建视觉世界的能力。我们的研究领域主要包括:3D场景理解:开发3D数据(如点云)的表示学习技术,研究RGB-D/3D语义理解(如语义分割、目标检测、实例分割)和配准任务。高效深度学习:致力于开发计算高效的深度学习算法和数据...
2024-11-05 12:31:08
25
转载 大型视觉语言模型OMG-LLaVA:图像级、目标级和像素级的推理和理解任务统一
当前普遍的分割方法擅长像素级的图像和视频理解,但缺乏推理能力,且不能通过文本指令进行控制。大型视觉-语言模型虽展现出基于视觉的对话和推理能力的强大,却缺失像素级理解,且难以接受视觉提示。昆仑天工首发提出OMG-LLaVA框架,将强大的像素级视觉理解与推理能力相结合,可以接受各种视觉和文本提示以实现灵活的用户交互,它将图像级、目标级和像素级的推理和理解任务统一在一个模型中。读论文是学习新知识的最快途...
2024-11-05 12:31:08
17
原创 TPAMI 2024 | NICEST:用于鲁棒场景图生成的噪声标签修正与训练
题目:NICEST: Noisy Label Correction and Training for Robust Scene Graph GenerationNICEST:用于鲁棒场景图生成的噪声标签修正与训练作者:Lin Li; Jun Xiao; Hanrong Shi; Hanwang Zhang; Yi Yang; Wei Liu; Long Chen摘要几乎所有现有的场景图生成 (SGG) 模型都忽视了主流 SGG 数据集的标注质量,即它们假设:1)所有手动标注的正样本都是完全正确的;
2024-11-04 14:34:36
116
转载 人工智能全栈系列课,免费公开
2024年已经接近尾声,回顾这大半年来的人工智能发展:GPT版本不断迭代,大模型技术屡屡刷新,多模态大模型再创新高,具身智能新星冉冉升起...双十一,不仅是电商人的狂欢,也是一年一次沃恩给科研er送福利的机会,这次不整虚的,我邀请了3位大咖分别来对大模型,多模态大模型、计算机视觉—行人重识别的最新前沿技术解析,还附赠2024年科研大礼包:2万篇2019-2024年CVPR,ECCV,,AAAL等顶...
2024-11-04 10:30:04
35
原创 TPAMI 2024 | 使用合成负样本的混合开放集分割
题目: Hybrid Open-Set Segmentation With Synthetic Negative Data使用合成负样本的混合开放集分割作者:Matej Grcic,Sinisa Segvic摘要开放集分割可以通过补充封闭集分类与异常检测来构想。许多现有的密集异常检测器通过生成模型对常规数据进行建模或与负数据进行区分。这两种方法优化了不同的目标,因此表现出不同的失败模式。因此,我们提出了一种新颖的异常得分,它融合了生成和判别的提示。我们的得分可以通过升级任何封闭集分割模型,以实现数据
2024-11-02 09:30:00
28
原创 TPAMI 2024 | 模块化神经运动重定向系统:解耦骨架与形状感知
在具有不同结构但对应于同胚图的角色之间进行运动映射,同时保留运动语义并感知形状几何,在皮肤运动重定向中构成了显著挑战。我们提出了M-R2^22ET,一个模块化神经运动重定向系统,以全面应对这些挑战。推动M-R2^22ET的关键洞察在于其在规范骨架空间中学习残余运动修改的能力。具体而言,设计了一个跨结构对齐模块,以学习不同骨架之间的关节对应关系,从而实现运动复制,并为语义和几何感知形成可靠的初始运动。
2024-11-02 09:30:00
28
原创 TPAMI 2024 | DeepNet: 将Transformer扩展到1000层
题目:DeepNet: Scaling Transformers to 1,000 LayersDeepNet: 将Transformer扩展到1000层作者:Hongyu Wang,Shuming Ma,Li Dong,Shaohan Huang,Dongdong Zhang,Furu Wei摘要 —— 在本文中,我们提出了一种简单而有效的方法来稳定极深的Transformer。具体来说,我们引入了一种新的归一化函数(DEEPNORM),用于修改Transformer中的残差连接,并伴随着理论上推
2024-11-01 09:30:00
24
原创 TPAMI 2024 | STMixer: 一种单阶段稀疏动作检测器
我们将动作查询以解耦的方式定义。具体来说,我们将动作查询分解为空间查询Qs∈RN×L×DQs∈RN×L×D、位置查询Qp∈RN×L×4Qp∈RN×L×4和时间查询Qt∈RN×DQt∈RN×D。N代表查询的数量,而D表示每个查询的维度。L代表输出框的时间长度。对于关键帧动作检测,L1L = 1L1,因为它只需要在关键帧上预测动作框。对于动作管检测,LTL = TLT。
2024-11-01 09:30:00
23
转载 最后机会!2024年剩余EI检索学术会议时间表大揭秘!
5本篇为大家盘点了近期计算机领域可投的5大优质EI会议!涵盖各大领域:重点包括图像视觉、人工智能、大数据等具体方向。每个会议均是高校联办,邀请到了数位IEEE Fellow莅临现场,还有IEEE官方列表会议可供选择。除此之外,联系组委会秘书处,还可了解更多会议支持政策(包括但不限于:推荐发表SCI、团队投稿优惠注册等)本次会议均由AC学术中心(https://academicenter.com)...
2024-10-31 10:21:56
131
原创 【魔改UNet系列】ID-UNet: 一种用于红外小目标分割的密集连接UNet架构
点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达论文信息题目:ID-UNet: A densely connected UNet architecture for infrared small target segmentationID-UNet:一种用于红外小目标分割的密集连接UNet架构作者:Diankun Chen, Feiwei Qin, Ruiquan Ge, Yo...
2024-10-31 10:21:56
993
原创 TPAMI 2024 | 走向理解AdamW的收敛与泛化
题目:Towards Understanding Convergence and Generalization of AdamW走向理解AdamW的收敛与泛化作者:Pan Zhou; Xingyu Xie; Zhouchen Lin; Shuicheng Yan摘要AdamW 通过在每次训练迭代中添加一个分离的权重衰减来修改 Adam,以衰减网络权重。对于自适应算法而言,这种分离的权重衰减不会影响特定的优化步骤,并且与广泛使用的 ℓ2\ell_2ℓ2-正则化不同,后者通过改变一阶和二阶梯度矩来改
2024-10-31 09:30:00
21
原创 TPAMI 2024 | PPDM++: 用于快速准确检测人-物交互的并行点检测与匹配
HOI检测任务定义为检测humanobjectactionhumanobjectactionHOI三元组,其中人类由主体边界框和类别组成,物体由物体边界框和类别组成,动作表示交互类别。对于这样一个复杂的任务,直观的想法是将其分解为几个更简单的任务,以便独立优化。因此,我们提出了并行点检测和匹配(PPDM)框架,它组装了两个并行分支以获得最终的HOI检测结果。图3所示的提出的PPDM框架,它包括两个分支,即点检测和点匹配。
2024-10-31 09:30:00
228
转载 顶刊解读 | 基于自适应四阶偏微分方程的遥感图像超分辨率重建
点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达Super-Resolution Reconstruction of Remote Sensing Images Based on an Adaptive Fourth-Order PDE基于自适应四阶偏微分方程的遥感图像超分辨率重建作者:Xin Wen, Feng Li, Zhongxuan Mao, Chunpeng Wan...
2024-10-30 10:05:59
23
转载 YOLOv11 架构改进 & 常见指令
点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达今天我们介绍 YOLOv11,这个系列中的最新成员。YOLO 是一个在目标检测领域几乎无与伦比的算法,它产生了非常成功的结果。这个算法系列在 YOLOv5 之后由 Ultralytics 继续开发,并且每个新模型都带来了更好的性能。YOLOv11 是 Ultralytics 开发的最新 YOLO 模型。这个模型在执行实时目标检测...
2024-10-30 10:05:59
19
转载 一文读懂模型的可解释性(附代码)
大模型的可解释性非常重要。随着模型越来越大,其“黑盒子”特性会严重影响模型结果的准确性,增加对模型的优化难度,以及在医学、金融等领域带来很高的应用风险。因此提高大模型的可解释性,不仅能优化我们的实验结果,其方法本身也是一个可发paper的创新点。今天总结一下目前最全的大模型可解释性技术。首先按照大模型的训练范式分类:传统 fine-tuning 范式和基于 prompting 的范式。基于传统...
2024-10-30 10:05:59
15
原创 TPAMI 2024 | 创造你的世界:终身文本到图像扩散
文本到图像生成模型能够通过文本提示产生多样化的高质量概念图像,在图像生成、图像翻译等方面展现出了卓越的能力。在本项工作中,我们研究了以永无止境的方式合成用户自己概念的实例问题,即“创造你的世界”,在这个世界中,用户的新概念可以快速地通过少量示例学习。为了实现这一目标,我们提出了一个终身文本到图像扩散模型L2DM(L^2DM)L2DM,旨在克服过去遇到的概念的知识“灾难性遗忘”,以及文本提示中一个或多个概念的语义“灾难性忽视”。在知识“灾难性遗忘”方面,我们的L2DML^2DML2。
2024-10-30 09:30:00
31
原创 TPAMI 2024 | EGCN++:基于骨架的康复运动评估中集成学习的新融合策略
题目:EGCN++: A New Fusion Strategy for Ensemble Learning in Skeleton-Based Rehabilitation Exercise AssessmentEGCN++:基于骨架的康复运动评估中集成学习的新融合策略作者:Bruce X. B. Yu; Yan Liu; Keith C. C. Chan; Chang Wen Chen摘要基于骨骼的锻炼评估侧重于评估受试者执行的锻炼动作的正确性或质量。骨骼数据提供两组特征(即位置和方向),而现
2024-10-30 09:30:00
25
转载 遥感顶刊 TRGS'24 | AODet: 基于 Transformers 的前景区域航空目标检测
点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达论文信息题目:AODet: Aerial Object Detection Using Transformers for Foreground RegionsAODet: 基于 Transformers 的前景区域航空目标检测作者:Xiaoming Wang , Hao Chen , Xiangxiang Chu , and P...
2024-10-29 10:05:39
23
原创 【魔改UNet系列】Mamba-UNet: 医学图像分割的UNet类纯视觉Mamba
点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达论文信息Mamba-UNet: UNet-Like Pure Visual Mamba for Medical Image SegmentationMamba-UNet: 医学图像分割的UNet类纯视觉Mamba作者:Ziyang Wang, Jian-Qing Zheng, Yichi Zhang, Ge Cui, Lei L...
2024-10-29 10:05:39
901
Python视觉实战项目31讲.pdf
2020-10-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅