论文解读 IEEE TPAMI
文章平均质量分 94
持续分享顶刊论文解读
优惠券已抵扣
余额抵扣
还需支付
¥59.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
小白学视觉
跟着小白一起学视觉
展开
-
TPAMI 2024 | 面向对未知对抗性攻击具有泛化鲁棒性的元不变性防御
尽管为计算机视觉任务提供了高性能的解决方案,但深度神经网络(DNN)模型已被证明极易受到对抗性攻击的影响。当前的防御主要集中在已知攻击上,但对未知攻击的对抗性鲁棒性却严重被忽视。此外,常用的自适应学习和微调技术在对抗性防御中不适用,因为在部署时本质上是一个零样本问题。因此,为了应对这一挑战,我们提出了一种名为Meta Invariance Defense(MID)的攻击不可知防御方法。原创 2024-11-13 09:30:00 · 8 阅读 · 0 评论 -
TPAMI 2024 | 广义线性因果网络的联邦学习
题目:Federated Learning of Generalized Linear Causal Networks广义线性因果网络的联邦学习作者:Qiaoling Ye; Arash A. Amini; Qing Zhou摘要因果发现,即从数据中推断变量之间的因果关系,是科学中的一个基本问题。如今,由于对数据隐私问题的日益关注,分布式数据收集、处理和存储发生了转变。为了满足分布式因果发现的迫切需求,我们提出了一种新的联合有向无环图(DAG)学习方法,称为分布式退火正则化似然分数(DARLS),原创 2024-11-13 09:30:00 · 11 阅读 · 0 评论 -
TPAMI 2024 | 用于主动目标检测的多实例差异化学习
尽管图像识别的主动学习取得了实质性进展,但缺乏对目标检测中实例级主动学习的系统研究。在本文中,我们提出了一种将实例不确定性计算与图像不确定性估计统一起来的方法,用于信息图像选择,创建了一种用于实例级主动学习的多实例差异化学习(MIDL)方法。MIDL包括一个分类器预测差异化模块和一个多实例差异化模块。前者利用两个对抗性实例分类器在标记集和未标记集上进行训练,以估计未标记集的实例不确定性。后者将未标记图像视为实例包,并使用多实例学习方式中的实例分类模型重新估计图像-实例不确定性。原创 2024-11-12 09:30:00 · 230 阅读 · 0 评论 -
TPAMI 2024 | MO-MIX:基于深度强化学习的多目标多智能体协同决策
深度强化学习(RL)已被广泛应用于解决复杂的决策问题。在许多现实世界的场景中,任务通常有多个相互冲突的目标,并且可能需要多个智能体进行合作,这些是多目标多智能体决策问题。然而,在这个交叉领域的研究工作还相对较少。现有的方法仅限于单独的领域,并且只能处理具有单一目标的多智能体决策,或者具有单一智能体的多目标决策。在本文中,我们提出了MO-MIX来解决多目标多智能体强化学习(MOMARL)问题。我们的方法基于集中训练与分散执行(CTDE)框架。原创 2024-11-12 09:30:00 · 116 阅读 · 0 评论 -
TPAMI 2024 | 使用合成负样本的混合开放集分割
题目: Hybrid Open-Set Segmentation With Synthetic Negative Data使用合成负样本的混合开放集分割作者:Matej Grcic,Sinisa Segvic摘要开放集分割可以通过补充封闭集分类与异常检测来构想。许多现有的密集异常检测器通过生成模型对常规数据进行建模或与负数据进行区分。这两种方法优化了不同的目标,因此表现出不同的失败模式。因此,我们提出了一种新颖的异常得分,它融合了生成和判别的提示。我们的得分可以通过升级任何封闭集分割模型,以实现数据原创 2024-11-11 09:30:00 · 109 阅读 · 0 评论 -
TPAMI 2024 | STMixer: 一种单阶段稀疏动作检测器
我们将动作查询以解耦的方式定义。具体来说,我们将动作查询分解为空间查询Qs∈RN×L×DQs∈RN×L×D、位置查询Qp∈RN×L×4Qp∈RN×L×4和时间查询Qt∈RN×DQt∈RN×D。N代表查询的数量,而D表示每个查询的维度。L代表输出框的时间长度。对于关键帧动作检测,L1L = 1L1,因为它只需要在关键帧上预测动作框。对于动作管检测,LTL = TLT。原创 2024-11-11 09:30:00 · 115 阅读 · 0 评论 -
TPAMI 2024 | PPDM++: 用于快速准确检测人-物交互的并行点检测与匹配
题目:PPDM++: Parallel Point Detection and Matching for Fast and Accurate HOI DetectionPPDM++: 用于快速准确检测人-物交互的并行点检测与匹配作者:Yue Liao, Si Liu, Yulu Gao, Aixi Zhang, Zhimin Li, Fei Wang, and Bo Li摘要人-物交互(HOI)检测旨在通过检测交互三元组来理解人类活动。先前的HOI检测方法采用两阶段实例驱动范式。然而,第一阶段生成的原创 2024-11-10 09:30:00 · 18 阅读 · 0 评论 -
TPAMI 2024 | DeepNet: 将Transformer扩展到1000层
— 在本文中,我们提出了一种简单而有效的方法来稳定极深的Transformer。具体来说,我们引入了一种新的归一化函数(DEEPNORM),用于修改Transformer中的残差连接,并伴随着理论上推导出的初始化。深入的理论分析表明,模型更新可以以稳定的方式被限制。所提出的方法结合了Post-LN的良好性能和Pre-LN的稳定训练这两个最佳方面,使DEEPNORM成为首选的替代方案。原创 2024-11-10 09:30:00 · 13 阅读 · 0 评论 -
TPAMI 2024 | 基于原型的语义分割
题目:Prototype-Based Semantic Segmentation基于原型的语义分割作者:Tianfei Zhou; Wenguan Wang摘要基于深度学习的语义分割解决方案在过去十年中取得了令人信服的结果。这些解决方案涵盖了不同的网络架构(基于FCN或基于注意力),以及各种掩码解码方案(基于参数化softmax或基于像素查询)。尽管存在分歧,但可以通过将softmax权重或查询向量解释为可学习的类原型,将它们归为统一的框架。基于这一原型视角,我们揭示了参数化分割模式中的固有局限性原创 2024-11-09 22:23:05 · 24 阅读 · 0 评论 -
TPAMI 2024 | PERF: 从单张全景图生成全景神经辐射场
神经辐射场(NeRF)在给定多视角图像时,在新视角合成任务上取得了显著进展。最近,一些研究尝试利用3D先验知识,从单张图像中训练NeRF。然而,它们主要关注有限视角且包含少量遮挡的情况,这大大限制了其在真实世界中的360度全景场景中的扩展性,尤其是在存在大面积遮挡时。在本文中,我们提出了PERF,一个从单张全景图训练全景神经辐射场的360度新视角合成框架。值得注意的是,PERF允许在复杂场景中进行3D漫游,而无需繁琐的图像收集。原创 2024-11-09 22:21:43 · 15 阅读 · 0 评论 -
TPAMI 2024 | NICEST:用于鲁棒场景图生成的噪声标签修正与训练
题目:NICEST: Noisy Label Correction and Training for Robust Scene Graph GenerationNICEST:用于鲁棒场景图生成的噪声标签修正与训练作者:Lin Li; Jun Xiao; Hanrong Shi; Hanwang Zhang; Yi Yang; Wei Liu; Long Chen摘要几乎所有现有的场景图生成 (SGG) 模型都忽视了主流 SGG 数据集的标注质量,即它们假设:1)所有手动标注的正样本都是完全正确的;原创 2024-11-04 14:34:36 · 116 阅读 · 0 评论 -
TPAMI 2024 | 模块化神经运动重定向系统:解耦骨架与形状感知
在具有不同结构但对应于同胚图的角色之间进行运动映射,同时保留运动语义并感知形状几何,在皮肤运动重定向中构成了显著挑战。我们提出了M-R2^22ET,一个模块化神经运动重定向系统,以全面应对这些挑战。推动M-R2^22ET的关键洞察在于其在规范骨架空间中学习残余运动修改的能力。具体而言,设计了一个跨结构对齐模块,以学习不同骨架之间的关节对应关系,从而实现运动复制,并为语义和几何感知形成可靠的初始运动。原创 2024-11-02 09:30:00 · 28 阅读 · 0 评论 -
TPAMI 2024 | 使用合成负样本的混合开放集分割
题目: Hybrid Open-Set Segmentation With Synthetic Negative Data使用合成负样本的混合开放集分割作者:Matej Grcic,Sinisa Segvic摘要开放集分割可以通过补充封闭集分类与异常检测来构想。许多现有的密集异常检测器通过生成模型对常规数据进行建模或与负数据进行区分。这两种方法优化了不同的目标,因此表现出不同的失败模式。因此,我们提出了一种新颖的异常得分,它融合了生成和判别的提示。我们的得分可以通过升级任何封闭集分割模型,以实现数据原创 2024-11-02 09:30:00 · 28 阅读 · 0 评论 -
TPAMI 2024 | DeepNet: 将Transformer扩展到1000层
题目:DeepNet: Scaling Transformers to 1,000 LayersDeepNet: 将Transformer扩展到1000层作者:Hongyu Wang,Shuming Ma,Li Dong,Shaohan Huang,Dongdong Zhang,Furu Wei摘要 —— 在本文中,我们提出了一种简单而有效的方法来稳定极深的Transformer。具体来说,我们引入了一种新的归一化函数(DEEPNORM),用于修改Transformer中的残差连接,并伴随着理论上推原创 2024-11-01 09:30:00 · 24 阅读 · 0 评论 -
TPAMI 2024 | STMixer: 一种单阶段稀疏动作检测器
我们将动作查询以解耦的方式定义。具体来说,我们将动作查询分解为空间查询Qs∈RN×L×DQs∈RN×L×D、位置查询Qp∈RN×L×4Qp∈RN×L×4和时间查询Qt∈RN×DQt∈RN×D。N代表查询的数量,而D表示每个查询的维度。L代表输出框的时间长度。对于关键帧动作检测,L1L = 1L1,因为它只需要在关键帧上预测动作框。对于动作管检测,LTL = TLT。原创 2024-11-01 09:30:00 · 23 阅读 · 0 评论 -
TPAMI 2024 | PPDM++: 用于快速准确检测人-物交互的并行点检测与匹配
HOI检测任务定义为检测humanobjectactionhumanobjectactionHOI三元组,其中人类由主体边界框和类别组成,物体由物体边界框和类别组成,动作表示交互类别。对于这样一个复杂的任务,直观的想法是将其分解为几个更简单的任务,以便独立优化。因此,我们提出了并行点检测和匹配(PPDM)框架,它组装了两个并行分支以获得最终的HOI检测结果。图3所示的提出的PPDM框架,它包括两个分支,即点检测和点匹配。原创 2024-10-31 09:30:00 · 228 阅读 · 0 评论 -
TPAMI 2024 | 走向理解AdamW的收敛与泛化
题目:Towards Understanding Convergence and Generalization of AdamW走向理解AdamW的收敛与泛化作者:Pan Zhou; Xingyu Xie; Zhouchen Lin; Shuicheng Yan摘要AdamW 通过在每次训练迭代中添加一个分离的权重衰减来修改 Adam,以衰减网络权重。对于自适应算法而言,这种分离的权重衰减不会影响特定的优化步骤,并且与广泛使用的 ℓ2\ell_2ℓ2-正则化不同,后者通过改变一阶和二阶梯度矩来改原创 2024-10-31 09:30:00 · 21 阅读 · 0 评论 -
TPAMI 2024 | EGCN++:基于骨架的康复运动评估中集成学习的新融合策略
题目:EGCN++: A New Fusion Strategy for Ensemble Learning in Skeleton-Based Rehabilitation Exercise AssessmentEGCN++:基于骨架的康复运动评估中集成学习的新融合策略作者:Bruce X. B. Yu; Yan Liu; Keith C. C. Chan; Chang Wen Chen摘要基于骨骼的锻炼评估侧重于评估受试者执行的锻炼动作的正确性或质量。骨骼数据提供两组特征(即位置和方向),而现原创 2024-10-30 09:30:00 · 25 阅读 · 0 评论 -
TPAMI 2024 | 创造你的世界:终身文本到图像扩散
文本到图像生成模型能够通过文本提示产生多样化的高质量概念图像,在图像生成、图像翻译等方面展现出了卓越的能力。在本项工作中,我们研究了以永无止境的方式合成用户自己概念的实例问题,即“创造你的世界”,在这个世界中,用户的新概念可以快速地通过少量示例学习。为了实现这一目标,我们提出了一个终身文本到图像扩散模型L2DM(L^2DM)L2DM,旨在克服过去遇到的概念的知识“灾难性遗忘”,以及文本提示中一个或多个概念的语义“灾难性忽视”。在知识“灾难性遗忘”方面,我们的L2DML^2DML2。原创 2024-10-30 09:30:00 · 31 阅读 · 0 评论 -
TPAMI 2024 | Split-GCN:用于分割不连续实例的有效交互式标注
人工标注物体边界需要高昂的成本。最近,基于多边形的交互式注释方法已经显示出成功的性能。然而,鉴于连接的顶点拓扑结构,这些方法在预测物体中断开的组件方面存在困难。本文介绍了Split-GCN,这是一种基于多边形方法和自注意力机制的新颖架构。通过提供方向信息,Split-GCN使多边形的顶点能够更精确地移动到物体边界。我们的模型通过转换初始拓扑结构,并使用关于顶点依赖性的上下文交换,成功预测了物体的断开组件。原创 2024-10-29 09:30:00 · 391 阅读 · 0 评论 -
TPAMI 2024 | 面向实例依赖标签噪声的参数化模型
题目:A Parametrical Model for Instance-Dependent Label Noise面向实例依赖标签噪声的参数化模型作者:Shuo Yang; Songhua Wu; Erkun Yang; Bo Han; Yang Liu; Min Xu; Gang Niu; Tongliang Liu摘要在标签噪声学习中,估计转移矩阵是一个热门话题,因为该矩阵在构建统计一致的分类器中起着重要作用。传统上,从干净标签到噪声标签的转移(即干净标签转移矩阵(CLTM))已经在类依赖标原创 2024-10-29 09:30:00 · 127 阅读 · 0 评论 -
TPAMI 2024 | 基于粗糙网格的三维场景构建与渲染:探索光照传递的新途径
本文研究了如何将重建的3D模型灵活地集成到实际的3D建模流程中,例如3D场景创建和渲染。由于技术难度,使用现有的3D重建技术,大多数真实物体只能获得粗糙的3D模型(R3DMs)。因此,基于物理的渲染(PBR)会为由R3DMs构建的场景渲染出质量较低的图像或视频。一个有前景的解决方案是将现实世界的对象表示为神经场,例如NeRF,它能够在所需的视点下生成对象的逼真渲染。原创 2024-10-28 09:30:00 · 21 阅读 · 0 评论 -
TPAMI 2024 | 无需训练的Transformer架构搜索:零成本代理引导进化
Transformers 已经展示了卓越的性能,然而,它们的架构设计是一个耗时的过程,需要专业知识和反复试验。因此,研究通过Transformer架构搜索(TAS)自动搜索高性能Transformer的有效方法是非常有价值的。为了提高搜索效率,无训练代理方法已在神经架构搜索(NAS)中被广泛采用。然而,这些代理在泛化到Transformer搜索空间方面被认为不够充分,这一点已通过几项研究和我们自己的实验得到证实。原创 2024-10-28 09:30:00 · 314 阅读 · 0 评论 -
TPAMI 2024 | 图像恢复中深度展开方法的旋转等变近端算子
深度展开方法在计算机视觉任务中引起了显著的关注,它很好地连接了传统的图像处理建模方式与最新的深度学习技术。具体来说,通过在每个实现步骤的算法算子与每层网络模块之间建立直接对应关系,可以合理构建一个几乎“白盒”的网络架构,具有高度的可解释性。在这种架构中,只有近端算子的预定义部分,即近端网络,需要手动配置,使网络能够以数据驱动的方式自动提取图像的内在先验。在当前的深度展开方法中,这样的近端网络通常被设计为CNN架构,其必要性已由最近的理论所证明。原创 2024-10-28 09:30:00 · 26 阅读 · 0 评论 -
TPAMI 2024 | PAGE:图神经网络的基于原型的模型级解释
图神经网络(GNNs)作为一种强大的框架,正在改变图表示学习,吸引了显著的关注。对GNN模型的解释需求也在不断增加。尽管已经开发了各种GNN解释方法,但大多数研究都集中在实例级解释上,这些解释是为给定的图实例量身定制的。在我们的研究中,我们提出了一种新颖的模型级GNN解释方法,即基于原型的GNN解释器(PAGE),它通过发现人类可解释的原型图来解释图分类中底层GNN模型学到了什么。我们的方法为给定的类别产生解释,因此能够提供比实例级解释更简洁、更全面的解释。原创 2024-10-28 09:30:00 · 40 阅读 · 0 评论 -
TPAMI 2024 | 基于角度回归的任意方向目标检测中的边界不连续性
随着自动驾驶和遥感等领域的快速发展,定向目标检测逐渐受到关注。大多数现有方法直接对旋转角度进行回归,我们认为这存在边界不连续性的根本性限制(即使使用高斯或基于RotatedIoU的损失)。在本文中,提出了一种新颖的角度编码器,称为相移编码器(PSC),以解决这一问题。与另一种广泛探索的替代方案——角度分类不同,PSC以连续且可微的方式实现无边界不连续性,并可以与基于高斯或基于RotatedIoU的方法一起使用,以进一步提高它们的性能。原创 2024-10-27 09:30:00 · 33 阅读 · 0 评论 -
TPAMI 2024 | 一种任务引导、隐式搜索和元初始化的图像融合深度模型
图像融合在多种基于多传感器的视觉系统中起着关键作用,特别是在增强视觉质量或提取感知的聚合特征方面。然而,大多数现有方法仅将图像融合视为一个独立任务,从而忽略了其与下游视觉问题的潜在关系。此外,设计合适的融合架构通常需要巨大的工程劳动,并且缺乏提高当前融合方法灵活性和泛化能力的机制。为了缓解这些问题,我们建立了一个任务引导的、隐式搜索的和元初始化的(TIM)深度模型,以解决现实世界场景中图像融合的挑战。具体来说,我们首先提出了一种受限策略,将下游任务的信息纳入以指导图像融合的无监督学习过程。原创 2024-10-27 09:30:00 · 30 阅读 · 0 评论 -
TPAMI 2024 | 解构数据无关知识蒸馏中的Gap Box机制
数据无关知识蒸馏(DFKD)通过模仿预训练教师模型(T)的类概率来提升学生模型(S),而无需训练数据。在这种设置下,理想的情况是T能够帮助生成器(G)生成“好”的样本,以最大限度地帮助S。然而,现有技术受到T和S之间类概率差距(即过大或过小)的干扰,导致生成的样本不理想;例如,过大的差距可能导致生成的样本对S来说信息过多,而过小的差距则导致样本中的知识有限,从而导致泛化能力差。同时,它们无法判断对S来说生成样本的“好坏”,因为固定的T不一定是理想的。原创 2024-10-26 09:30:00 · 39 阅读 · 0 评论 -
TPAMI 2024 | 三维场景抽象中的鲁棒性形状拟合方法
人类感知和构建世界为简单参数模型的排列。特别是,我们经常可以使用体积原语,如长方体或圆柱体来描述人造环境。推断这些原语对于获得高级、抽象的场景描述非常重要。以往基于原语的抽象方法直接估计形状参数,并且只能再现简单的对象。相比之下,我们提出了一种鲁棒的原语拟合估计器,使用长方体对复杂现实世界环境进行有意义的抽象。一个由神经网络引导的RANSAC估计器将这些原语拟合到深度图。我们将网络条件化在先前检测到的场景部分上,逐个解析它。为了从单个RGB图像中获得长方体,我们额外优化了一个端到端的深度估计CNN。原创 2024-10-26 09:30:00 · 42 阅读 · 0 评论 -
TPAMI 2024 | 单一图像视图合成中隐式与显式几何变换的桥梁构建
Bridging Implicit and Explicit Geometric Transformation for Single-Image View Synthesis题目:单一图像视图合成中隐式与显式几何变换的桥梁构建作者:Byeongjun Park; Hyojun Go; Changick Kim摘要从单个图像创建新视角在先进的自回归模型的帮助下取得了巨大的进步,因为必须从可见场景内容推断未见区域。尽管最近的方法能够生成高质量的新视角,但仅使用一个显式或隐式的3D几何图形进行合成存在两原创 2024-10-25 09:30:00 · 22 阅读 · 0 评论 -
TPAMI 2024 | 将CLIP模型转化为场景文本识别器
我们利用大规模对比语言-图像预训练(CLIP)模型的潜力,增强场景文本检测和识别任务,将其转化为一个强大的骨干网络,FastTCM-CR50。这个骨干网络利用视觉提示学习和CLIP中的交叉注意力来提取图像和基于文本的先验知识。通过预定义和可学习的提示,FastTCM-CR50引入了一个实例-语言匹配过程,以增强图像和文本嵌入之间的协同作用,从而细化文本区域。我们的双模态相似性匹配(BSM)模块促进了动态语言提示的生成,实现了离线计算并提高了性能。原创 2024-10-25 09:30:00 · 39 阅读 · 0 评论 -
TPAMI 2024 | 气体物体检测
物体检测是计算机视觉中的一个基础且具有挑战性的问题,由于深度学习的有效性,它经历了快速发展。目前要检测的对象大多是具有明显和独特视觉特征的刚性固体物质。在本文中,我们尝试了一个很少被探索的任务,名为气体物体检测(GOD),旨在探索物体检测技术是否可以从固体物质扩展到气体物质。然而,气体表现出明显不同的视觉特征:1) 显著性不足,2) 任意且不断变化的形状,3) 缺乏明显边界。原创 2024-10-24 09:30:00 · 48 阅读 · 0 评论 -
TPAMI 2024 | 高斯过程门控的层次混合专家模型
在本文中,我们提出了一种新型的高斯过程门控层次化混合专家(Gaussian Process-Gated Hierarchical Mixtures of Experts, GPHMEs)。与其他线性输入门控模型不同,我们的模型采用了基于高斯过程(GPs)构建的门控函数。这些过程是基于输入的非线性函数的随机特征。此外,我们模型中的专家也是用GPs构建的。GPHMEs的优化是通过变分推断来执行的。所提出的GPHMEs具有几个优点。原创 2024-10-24 09:30:00 · 32 阅读 · 0 评论 -
TPAMI 2024 | HIRI-ViT: 通过高分辨率输入扩展视觉Transformer
视觉Transformer(Vision Transformer,简称ViT)和卷积神经网络(Convolutional Neural Network,简称CNN)的混合深度模型已成为视觉任务的强大骨干网络。提高这类混合骨干网络的输入分辨率自然会增强模型的容量,但不可避免地会遭受到计算成本的重负,其成本随着输入分辨率的增加而呈二次方增加。相反,我们提出了一种新的混合骨干网络,即针对高分辨率输入的HIgh-Resolution Inputs(即HIRI-ViT),它将流行的四阶段ViT升级为五阶段ViT。原创 2024-10-23 09:30:00 · 295 阅读 · 0 评论 -
TPAMI 2024 | 基于事件的稀疏监督3D手势姿态估计
题目:EvHandPose: Event-Based 3D Hand Pose Estimation With Sparse Supervision基于事件的稀疏监督3D手势姿态估计作者:Jianping Jiang; Jiahe Li; Baowen Zhang; Xiaoming Deng; Boxin Shi摘要事件相机在3D手姿估计中显示出巨大潜力,尤其是在低功耗方式下解决快速运动和高动态范围的挑战。然而,由于异步差分成像机制,设计事件表示以编码手部运动信息尤其具有挑战性,尤其是当手部不动原创 2024-10-23 09:30:00 · 40 阅读 · 0 评论 -
TPAMI 2024 | 基于事件相机的动作识别与基准测试
近年来,基于视频的动作识别取得了显著的成就。除了传统的基于帧的相机,事件相机是受生物启发的视觉传感器,它们只记录像素亮度变化而非亮度值。然而,在基于事件的动作识别方面所做的努力还很少,大规模的公共数据集也几乎不可用。在本文中,我们提出了一个名为 EV-ACT 的基于事件的动作识别框架。首次提出了可学习的多融合表示(LMFR),以可学习的方式整合多个事件信息。具有双重时间粒度的 LMFR 被送入基于事件的慢速-快速网络,用于融合外观和运动特征。引入了时空注意力机制,以进一步增强动作识别的学习能力。原创 2024-10-22 09:30:00 · 148 阅读 · 0 评论 -
TPAMI 2024 | AdaPoinTr:采用自适应几何感知Transformer的多样化点云补全
在本文中,我们提出了一种名为 PoinTr 的 Transformer 编码器-解码器架构,该架构将点云补全问题重新定义为集合到集合的翻译问题,并采用几何感知块来显式建模局部几何关系。Transformer 的迁移使我们的模型能够更好地学习结构知识并保留点云补全过程中的详细信息。为了解决更复杂和多样化的情况,我们进一步提出了 AdaPoinTr,通过开发自适应查询生成机制和设计一种新颖的去噪任务来完成点云。原创 2024-10-22 09:30:00 · 127 阅读 · 0 评论 -
TPAMI 2024 | 通过网络参数加法分解处理噪声标签
在带有噪声标签的数据中,过参数化的深度网络容易过拟合错误标签的数据,导致泛化性能差。深度网络的记忆效应表明,尽管网络能够记忆所有的噪声数据,但它们会首先记忆干净的训练数据,然后逐渐记忆错误的训练数据。一种利用记忆效应来应对噪声标签的简单有效的方法是早停法。然而,早停法无法区分对干净数据和错误数据的记忆,导致网络在训练的早期阶段仍然不可避免地过拟合错误数据。本文中,为了解耦干净数据和错误数据的记忆,并进一步减少错误数据的负面影响,我们对网络参数进行了加性分解。即,所有参数被加性分解为两组,即参数www。原创 2024-10-20 10:13:04 · 35 阅读 · 0 评论 -
TPAMI 2024 | 二次矩阵分解及其在流形学习中的应用
Quadratic Matrix Factorization With Applications to Manifold Learning二次矩阵分解及其在流形学习中的应用Zheng Zhai; Hengchao Chen; Qiang Sun摘要矩阵分解是一种用于建模低秩数据矩阵的流行框架。受流形学习问题的启发,本文提出了一种二次矩阵分解 (QMF) 框架,用于学习数据集所在的弯曲流形。与局部线性方法(如局部主成分分析)不同,QMF 可以更好地利用底层流形的弯曲结构。在算法方面,我们提出了一种交原创 2024-10-20 10:12:23 · 49 阅读 · 0 评论 -
TPAMI 2024 | 基于室内平面先验的神经3D场景重建
本文针对从多视图图像重建3D室内场景的挑战进行了研究。许多先前的工作在有纹理的物体上表现出了令人印象深刻的重建效果,但在处理室内场景中常见的低纹理平面区域时仍然存在困难。解决这一问题的一种方法是将平面约束引入到基于多视图立体(MVS)方法的深度图估计中,但每视图的平面估计和深度优化在效率和多视图一致性方面都存在不足。在这项工作中,我们展示了平面约束可以方便地集成到最新的基于隐式神经表示的重建方法中。具体来说,我们使用MLP网络将有符号距离函数表示为场景几何。原创 2024-10-21 09:30:00 · 76 阅读 · 0 评论
分享