自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(118)
  • 收藏
  • 关注

原创 【论文阅读】3D Diffuser Actor: Policy Diffusion with 3D Scene Representations

ChainedDiffuser 和 3D Diffuser Actor 都根据keyposes分割演示。值得注意的是,

2024-09-18 16:39:08 1986 1

原创 【work】AI八股-神经网络相关

y^=g(Whyh+by)\hat{y} = g(W_{hy} h + b_y)y^​=g(Why​h+by​) 其中 WhyW_{hy}Why​ 是隐藏层到输出层的权重矩阵,byb_yby​ 是输出层的偏置向量,ggg 是输出层的激活函数,通常在分类问题中是softmax函数。: h=f(Wxhx+bh)h = f(W_{xh} x + b_h)h=f(Wxh​x+bh​) 其中 WxhW_{xh}Wxh​ 是输入到隐藏层的权重矩阵,bhb_hbh​ 是隐藏层的偏置向量,fff 是激活函数。

2024-07-02 14:18:11 1032

原创 [work] AI算法八股总结

高斯RBF核函数的数学形式为:xi​ 和 xj是输入样本的特征向量。∥xi−xj∥ 表示 xi 和 xj 之间的欧氏距离。σ 是一个参数,称为带宽参数,控制核函数的“宽度”。对于一个训练样本,其中是输入特征向量,是标签(通常是 +1 或 -1),hinge loss 定义如下:其中。

2024-06-01 00:12:28 1893

原创 【论文阅读】Tutorial on Diffusion Models for Imaging and Vision

2024-05-03 01:19:50 1816 5

原创 SEM: Enhancing Spatial Understanding forRobust Robot Manipulation

机器人操作的一个关键挑战在于开发具有强大空间理解能力的策略模型——即对3D几何、物体关系和机器人本体结构进行推理的能力。现有方法往往存在不足:3D点云模型缺乏语义抽象能力,而2D图像编码器在空间推理方面存在困难。为解决这一问题,我们提出了SEM(空间增强操作模型),这是一种基于扩散模型的新型策略框架,该框架从两个互补的角度明确增强空间理解能力。空间增强器通过3D几何上下文来增强视觉表征,而机器人状态编码器则通过关节依赖关系的图建模来捕捉本体感知结构。

2025-06-04 17:34:27 951

原创 Spatial-Temporal Graph Diffusion Policy with Kinematic Modeling for Bimanual Robotic Manipulation

尽管模仿学习在机器人操作领域取得了显著成功,但其在双机器人任务中的应用仍极具挑战性。现有方法主要通过学习策略来预测未来的次优末端执行器位姿(NBP),然后利用逆运动学计算运动对应的关节旋转角度。然而,这些方法存在两个关键问题:(1)很少考虑机器人的物理结构,可能导致自碰撞或干涉;(2)忽略运动学约束,可能导致预测位姿不符合机器人关节的实际限制。本文提出了运动学增强时空图扩散器(KStar Diffuser)。

2025-06-04 17:07:12 974

原创 Grounding Bodily Awareness in VisualRepresentations for Efficient Policy Learning

由于动作执行中涉及复杂的身体动力学,学习适用于机器人操作的有效视觉表示仍然是一个根本性挑战。在本文中,我们研究了携带身体相关线索的视觉表示如何实现下游机器人操作任务的高效策略学习。我们提出了令牌间对比(Inter-token Contrast, ICon)方法,这是一种应用于视觉Transformer(ViTs)令牌级表示的对比学习方法。ICon在特征空间中强制分离智能体特定令牌和环境特定令牌,从而生成嵌入身体特定归纳偏置的以智能体为中心的视觉表示。该框架通过。

2025-06-04 13:26:47 1007

原创 Beyond Tokens: A Survey on Decoding Methods for Large Language Models and Large Vision-Language Mode

大型语言模型(LLMs)和大型视觉语言模型(LVLMs)已展现出令人瞩目的生成能力,但确保其输出与用户意图一致仍具挑战性。尽管现有方法大多在训练阶段解决这一问题,解码方法。在本综述中,我们从近期关于 LLMs 和 LVLMs 解码方法的研究中归纳出三种新兴范式,系统回顾这些方法,强调当前挑战,并探讨潜在的未来研究方向。我们的目标是强调解码方法的效率和有效性,并提供这些方法如何用于多样化任务的实用视角。

2025-05-27 17:40:25 770

原创 SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers

SiT:利用可扩展插值Transformer探索基于流和扩散的生成模型摘要:我们提出了可扩展插值Transformer(SiT),这是一类基于扩散Transformer(DiT)主干构建的生成模型。插值框架允许以比标准扩散模型更灵活的方式连接两种分布,使得对基于动态传输的生成模型中各种设计选择的模块化研究成为可能:离散或连续时间学习、目标函数、连接分布的插值器,以及确定性或随机采样。

2025-05-25 13:57:09 788

原创 BIDIRECTIONAL DECODING: IMPROVING ACTION CHUNKING VIA GUIDED TEST-TIME SAMPLING

无需中间重新规划即可预测和执行动作序列的能力(称为动作分块)在从人类演示中进行机器人学习的领域中应用日益广泛。然而,其对学习策略的。

2025-05-23 12:14:43 925

原创 GR00T N1:面向通用类人机器人的开放基础模型

通用型机器人需要具备多功能的身体和智能的大脑。近年来,类人机器人的发展在构建人类世界中的通用自主性硬件平台方面展现出巨大潜力。一个经过大量多样化数据源训练的机器人基础模型,对于使机器人能够推理新情况、稳健处理现实世界的多变性以及快速学习新任务至关重要。为此,我们推出了GR00T N1,这是一个面向类人机器人的开放基础模型。GR00T N1是一个视觉-语言-行动(VLA)模型,采用双系统架构。视觉-语言模块(系统2)通过视觉和语言指令解释环境。随后的扩散变换器模块(系统1)实时生成流畅的运动动作。

2025-04-16 17:48:05 1189

原创 diffuser DDIM step计算流程

训练过程中,通过在 0 到最大正向扩散步骤 T 之间进行随机采样加噪,不仅能够使模型学会对各种噪声水平进行准确的预测,还能确保在逆向过程中,无论处于哪一段噪声水平,模型都能有效地还原出干净数据。而输入的当前时间步是step的输入参数,是通过scheduler的time_spacing指定产生的一个数值从大到小的列表。这里的上一个时间步是按照当前时间步的数值减去扩散时间步除以去噪时间步得到的间隔数。也就是计算上式中的第二项,根号系数没什么可说的,后面乘上的就是与模型有关的。1、得到上一个去噪时间步。

2025-04-16 13:30:44 170

原创 Neuro-Symbolic Imitation Learning: Discovering Symbolic Abstractions for Skill Learning

模仿学习是一种流行的方法,用于教导机器人新的行为。然而,大多数现有方法侧重于教授简短、孤立的技能,而非长期、多步骤的任务。为了弥合这一差距,模仿学习算法不仅要学习单独的技能,还要对如何将这些技能组合起来以有效执行长期任务有抽象的理解。本文通过提出一种神经符号模仿学习框架来解决这一挑战。该系统首先利用任务演示学习一种符号表示,这种表示抽象了低层次的状态-动作空间。这种符号表示将任务分解为更简单的子任务,并允许系统利用符号规划生成抽象计划。

2025-04-15 00:11:27 525

原创 DINO-WM: World Models on Pre-trained Visual Featuresenable Zero-shot Planning

能够预测给定控制动作的未来结果对于物理推理至关重要。然而,这种预测模型(通常称为世界模型)一直很难学习,并且通常用于特定任务的在线策略学习解决方案。为了释放世界模型的真正潜力,我们认为它们应该 1)能够在离线预收集的轨迹上进行训练,2)支持测试时的行为优化,3)促进与任务无关的推理。为此,我们提出了DINO世界模型(DINO-WM),这是一种新的方法,用于在不重建视觉世界的情况下对视觉动态进行建模。DINO-WM利用使用DINOv2预训练的空间补丁特征,使其能够通过预测未来补丁特征从离线行为轨迹中学习。

2025-04-08 17:55:55 890

原创 Bridging Language, Vision and Action: Multimodal VAEs in RoboticManipulation Tasks

本文聚焦于机器人操作领域中的无监督视觉-语言-行动映射问题。近期,众多研究提出了利用预训练大型语言和视觉模型来解决这一任务的方法。然而,这些方法计算成本高昂,且需要对输出进行精细调整。一种更轻量级的替代方案是实现多模态变分自编码器(VAEs),它能够提取数据的潜在特征,并将它们整合到一个联合表示中,这已在图像-图像或图像-文本数据的最新模型中得到证明。在此,我们探讨多模态VAEs是否以及如何能够在模拟环境中用于无监督的机器人操作任务。

2025-04-07 00:55:30 782

原创 (DreamerV3)Mastering Diverse Domains through World Models

通用智能需要解决多个领域的任务。当前的强化学习算法具备这种潜力,但受限于为新任务调整所需的资源和知识。我们提出了DreamerV3,这是一种基于世界模型的通用且可扩展的算法,在固定超参数的情况下,超越了以往在广泛领域的表现。这些领域包括连续和离散动作、视觉和低维输入、2D和3D世界、不同的数据预算、奖励频率和奖励规模。我们观察到DreamerV3具有良好的扩展性,更大的模型直接转化为更高的数据效率和最终性能。

2025-04-03 15:44:45 724

原创 DayDreamer: World Models forPhysical Robot Learning

为了在复杂环境中完成任务,机器人需要从经验中学习。深度强化学习是机器人学习的一种常见方法,但它需要大量的试错来学习,限制了其在物理世界中的部署。因此,许多机器人学习的进步依赖于模拟器。然而,在模拟器中学习无法捕捉现实世界的复杂性,容易受到模拟器不准确的影响,而且产生的行为无法适应世界的变化。最近的Dreamer算法通过在学习到的世界模型中进行规划,仅需少量交互即可学习,在视频游戏中超越了纯强化学习。通过学习世界模型来预测潜在动作的结果,可以在想象中进行规划,减少在现实环境中所需的试错次数。然而,

2025-04-03 14:32:42 1175

原创 HiRT: Enhancing Robotic Control with HierarchicalRobot Transformers

语言条件的操作问题可以被视为在由马尔可夫决策过程建模的环境中的一系列决策:,其中S、A、ρ0分别代表状态空间、动作空间和初始状态分布,代表奖励函数,表明是否达到了期望的状态或完成了任务,代表环境的概率性前向动态函数。具体来说,给定一个自由形式的语言指令l,指定一个特定的任务,控制策略接收一个视觉观察,通常由一系列图像组成。然后从控制策略建模的动作分布中采样一个动作a ∈ A,该动作结合了末端执行器的相对位置和姿态。对于HiRT,策略由视觉语言模型的Fθ和快速潜在条件策略的Sϕ参数化。

2025-04-03 13:39:58 1089

原创 Robotic Manipulation in Dynamic Scenarios viaBounding Box-Based Hindsight Goal Generation

通过使用启发式或课程目标对过去的经验进行重新标记,最先进的强化学习(RL)算法,如后见经验回放(HER)、后见目标生成(HGG)和基于图的后见目标生成(G-HGG),已经在具有稀疏奖励的多目标设置中解决了具有挑战性的机器人操作任务。HGG通过从课程中学习,在目标难以探索的复杂任务中优于HER,其中中间目标的选择基于与目标目标的欧几里得距离。G-HGG通过从环境的预计算图表示中选择中间目标来增强HGG,这使得其适用于具有静态障碍物的环境。

2025-04-02 11:36:42 649

原创 Predicting the Next Action by Modeling the Abstract Goal

即使基于特征的抽象目标 p(zT) 是从 VRNN 框架[^7]、[^12]中获得的,行动表示 aO 和 aN、基于行动的抽象目标 p(zN) 和目标一致性标准的公式与[^1]、[^25]有显著不同。然后,我们获得下一个行为表示(aN)的分布,该分布基于RNN的隐藏状态和观察到的行为表示,记为p(aN|hT, aO)。与之前的随机方法[^25]、[^1]相比,我们引入了三个基于 KL 散度的损失函数,分别基于 a) 基于特征的抽象目标,b) 基于行动的抽象目标(LNG),c) 目标一致性损失(LGC)。

2025-04-02 10:17:06 537

原创 IGOR: Image-GOal RepresentationsAtomic Control Units for Foundation Models in Embodied AI

我们介绍了图像目标表示(IGOR),旨在学习人类和各种机器人之间统一且语义一致的动作空间。通过这种统一的潜在动作空间,IGOR 能够在大规模机器人和人类活动数据之间实现知识迁移。我们通过将初始图像与其目标状态之间的视觉变化压缩为潜在动作来实现这一点。IGOR 允许我们为互联网规模的视频数据生成潜在动作标签。这种统一的潜在动作空间使得我们能够在机器人和人类执行的各种任务中训练基础策略和世界模型。我们证明了:(1)IGOR 学习了人类和机器人之间语义一致的动作空间,

2025-04-01 10:02:31 299

原创 SENSEI: Semantic Exploration Guided by Foundation Modelsto Learn Versatile World Models

探索是强化学习(RL)的基石。内在动机试图将探索与基于外部任务的奖励解耦。然而,遵循信息增益等一般原则的既定内在动机方法,通常只能发现低层次的交互。相比之下,儿童的游戏表明,他们通过模仿或与照顾者互动来参与有意义的高层次行为。近期的研究集中在利用基础模型将这些语义偏见注入探索中。然而,这些方法通常依赖于不切实际的假设,例如语言嵌入环境或能够访问高层次动作。我们提出了SEmaNtically Sensible ExploratIon(SENSEI),

2025-03-28 00:41:57 966

原创 DITTO: Offline Imitation Learning with World Models

为了让模仿学习算法能够应对现实世界的挑战,它们必须能够处理高维观测、离线学习以及策略诱导的协变量偏移。我们提出了 DITTO,一种离线模仿学习算法,能够解决这三个问题。DITTO 在学习到的世界模型的潜在空间中优化一种新颖的距离度量:首先,我们在所有可用的轨迹数据上训练一个世界模型,然后,模仿代理从专家的起始状态在学习到的模型中展开,并因其在多个时间步上与专家数据集的潜在偏差而受到惩罚。我们使用标准的强化学习算法优化这种多步潜在偏差。

2025-03-25 20:06:08 836

原创 LUMOS: Language-Conditioned Imitation Learning with World Models

我们介绍了 LUMOS,这是一个用于机器人的语言条件多任务模仿学习框架。LUMOS 通过在学习到的世界模型的潜在空间中进行多次长时域的 rollout 来学习技能,并将这些技能零样本地迁移到真实机器人上。通过在学习到的世界模型的潜在空间中进行策略学习,我们的算法减轻了大多数离线模仿学习方法所遭受的策略诱导分布偏移。LUMOS 从无结构的玩耍数据中学习,其中少于 1% 的数据有事后语言注释,但在测试时可以用语言命令进行引导。我们通过在训练中结合潜在规划以及基于图像和语言的事后目标重标记。

2025-03-25 13:36:35 1159

原创 UNSUPERVISEDPRETRAININGTRANSFERSWELLACROSSLANGUAGES

在这一组实验中,我们在两个同一语言内的任务上比较原始 CPC 与我们修改后的版本:在英语 Zerospeech2017 数据集上的音素可区分性,以及在 Librispeech 100h [4] 上的音素线性可分性。这一结果不仅证实了 [6] 的发现,而且还表明,只要有足够的数据,无监督预训练可以与监督预训练相匹配(请参阅补充部分 S2,了解更大的 Libri - light 数据集 [29])。在表 3 中,我们报告了在有监督和无监督预训练的音素特征上训练的线性分类器的音素错误率(PER)。

2025-03-21 01:10:28 846

原创 Representation Learning with Contrastive Predictive Coding

Aaron van den Oord DeepMind avdnoord@google.comYazhe Li DeepMind yazhe@google.comOriol Vinyals DeepMind vinyals@google.com摘要尽管监督学习在许多应用中取得了巨大进展,但无监督学习尚未得到如此广泛的应用,仍然是人工智能领域一个重要的挑战。本文提出了一种通用的无监督学习方法,用于从高维数据中提取有用的表示,我们将其称为对比预测编码(Contrastive Predictive Codi

2025-03-20 18:21:03 815

原创 GRAPE: Generalizing Robot Policy via Preference Alignment

尽管视觉-语言-行动(VLA)模型在多种机器人任务上取得了进展,但它们存在关键问题,例如由于依赖于仅从成功演示中进行行为克隆,导致对未见任务的泛化能力较差。此外,它们通常会针对不同设置下专家收集的演示进行微调,从而引入分布偏差,限制了它们对多样化操作目标(如效率、安全性和任务完成)的适应性。为了弥合这一差距,我们引入了GRAPE:通过偏好对齐泛化机器人策略。具体而言,GRAPE在轨迹层面将VLA对齐,并从成功和失败的试验中隐式建模奖励,以增强对多样化任务的泛化能力。

2025-03-14 01:06:52 1032

原创 Diffusion Trajectory-guided Policy for Long-horizonRobot Manipulation

— 近期,视觉 - 语言 - 行动模型(VLA)推动了机器人模仿学习的发展,但数据收集成本高且示范有限,限制了泛化能力,当前的模仿学习方法在分布外场景中表现不佳,尤其在长时域任务中。关键挑战在于如何减少模仿学习中的累积误差,这些误差会导致轨迹延长时出现级联故障。为解决这些挑战,我们提出了扩散轨迹引导策略(DTP)框架,通过扩散模型生成二维轨迹来引导长时域任务的策略学习。借助与任务相关的轨迹,DTP 提供轨迹级引导以减少误差累积。

2025-03-12 16:15:29 738

原创 loss输入由多项来自不同内容的部分组成如何调整权重

L1 Loss:适用于异常值多、噪声大或者需要稀疏性表达的场景,能够减少大误差对模型的干扰,但其不连续的梯度可能在某些优化器中引起问题。L2 Loss:适用于数据干净、需要平滑梯度优化以及对大误差敏感的场景,但在异常值存在时可能过分惩罚,从而影响模型的鲁棒性。在一些实际应用中,仅使用 L1 或 L2 loss 往往难以同时兼顾鲁棒性和稳定性,因此结合二者(例如使用 Elastic Net 或 Huber loss)能够发挥各自优势。L1 loss提供稀疏性和对离群值的鲁棒性;L2 loss。

2025-03-12 13:07:21 1106

原创 HAMSTER: HIERARCHICAL ACTION MODELS FOR OPEN-WORLD ROBOT MANIPULATION

大型基础模型在视觉和语言领域的复杂问题上展现出强大的开放世界泛化能力,但在机器人领域,类似水平的泛化能力尚未实现。一个根本挑战在于缺乏机器人数据,这些数据通常需要通过昂贵的机器人实际操作来获取。一种有前景的解决方法是利用更廉价的 “域外” 数据,如无动作视频、手绘草图或模拟数据。在这项工作中,我们提出,分层视觉 - 语言 - 动作(VLA)模型在利用域外数据方面,比直接对视觉 - 语言模型(VLMs)进行微调以预测动作的标准整体式 VLA 模型更有效。具体而言,我们研究了一类分层 VLA 模型,其中。

2025-03-11 18:26:58 760

原创 VLA action tokenizer

✅。

2025-03-11 13:31:11 680

原创 ANY-STEP DYNAMICS MODEL IMPROVES FUTURE PREDICTIONS FOR ONLINE AND OFFLINE REINFORCEMENT LEARNING

基于模型的强化学习方法通过在动力学模型中进行策略探索,为提高数据效率提供了一种有前景的途径。然而,由于自举预测(将下一个状态归因于当前状态的预测),在动力学模型中准确预测连续步骤仍然是一个挑战,这会导致模型展开过程中的误差累积。在本文中,我们提出了任意步长动力学模型(ADM),通过将自举预测简化为直接预测来减轻复合误差。ADM 允许使用可变长度的计划作为输入来预测未来状态,而无需频繁进行自举预测。我们设计了两种算法,ADMPO-ON 和 ADMPO-OFF,分别将 ADM 应用于在线和离线基于模型的框架中。

2025-02-28 11:35:53 731

原创 STABILIZING CONTRASTIVE RL: TECHNIQUES FOR ROBOTIC GOAL REACHING FROM OFFLINE DATA

主要依赖自监督学习的机器人系统,有望减少学习控制策略所需的人工标注和工程工作量。正如先前的机器人系统借鉴了计算机视觉(CV)和自然语言处理(NLP)中的自监督技术一样,我们的工作基于先前研究,这些研究表明强化学习(RL)本身可视为一个自监督问题:即学习在没有人为指定奖励或标签的情况下达成任何目标。尽管这一概念颇具吸引力,但几乎没有先前研究展示出自监督 RL 方法在机器人系统上的实际应用。通过首先研究这一任务具有挑战性的模拟版本,我们确定了关于架构和超参数的设计决策,这些决策将成功率提高了两倍。

2025-02-27 16:58:51 809

原创 LEARNING TRANSFORMER-BASED WORLD MODELS WITH CONTRASTIVE PREDICTIVE CODING

DreamerV3 算法最近通过学习基于循环神经网络(Recurrent Neural Networks, RNNs)的精确世界模型,在各种环境领域取得了显著性能。

2025-02-27 12:00:45 858

原创 Contrastive Learning for Enhancing Robust Scene Transfer in Vision-based Agile Flight

基于视觉的移动机器人应用场景转移是一个高度相关且具有挑战性的问题。机器人的效用在很大程度上取决于它在现实世界中执行任务的能力,而不是在一个控制良好的实验室环境中。现有的场景迁移端到端policy学习方法往往存在样本效率低或泛化能力有限的问题,不适合移动机器人应用。这项工作提出了一种用于视觉表示学习的自适应多对对比学习策略,该策略能够实现零镜头场景迁移和现实世界部署。依赖于嵌入的control policies能够在不可见的环境中运行,而无需在部署环境中进行调优。

2025-02-26 17:31:50 657

原创 lerobot使用文档

这些表格显示了g=2和crf=30时的结果,使用和vcodecpix_fmtlibx264libx265libsvtav1repo_idyuv420pyuv444pyuv420pyuv444pyuv420p16.97%17.58%18.57%18.86%22.06%2.14%2.11%1.38%1.37%5.59%2.12%2.13%1.54%1.54%4.43%1.40%1.39%1.00%1.00%2.52%vcodecpix_fmtlibx264。

2025-02-25 14:28:00 1174

原创 A Large Recurrent Action Model: xLSTM Enables Fast Inference for Robotics Tasks

近年来,强化学习(Reinforcement Learning, RL)领域出现了一种趋势,即通过序列建模在大规模数据集上离线训练大型动作模型。现有模型主要基于 Transformer 架构,这造就了强大的智能体。然而,由于推理时间较慢,基于 Transformer 的方法在实时应用(如机器人技术)中并不实用。最近,诸如 xLSTM 和 Mamba 等现代循环架构被提出,它们在训练期间展现出与 Transformer 架构类似的并行化优势,同时提供快速推理。在这项工作中,我们研究了这些现代循环架构。

2025-02-25 00:50:09 1022

原创 Integrating Historical Learning and Multi-View Attention with Hierarchical Feature Fusion for Roboti

人类通常基于过去的经验和观察做出决策,而在机器人操作领域,机器人的动作预测往往仅依赖当前观察。这使得机器人在当前观察不理想时,容易忽视环境变化,或者决策失效。为解决机器人学中的这一关键挑战,受人类认知过程的启发,我们提出一种融合历史学习和多视角注意力机制的方法,以提升机器人操作性能。基于时空注意力机制,该方法不仅结合当前和过去步骤的观察,还融入历史动作,以便更好地感知机器人行为变化及其对环境的影响。我们还采用基于互信息的多视角注意力模块,自动聚焦于有价值的视角,为决策融入更有效的信息。

2025-02-24 23:26:42 818

原创 MULTI-VIEW CONTRASTIVE LEARNING FROM DEMONSTRATIONS

本文提出了一个从多个视角捕获的无标签视频演示中学习视觉表征的框架。我们展示了这些表征可应用于模仿机器人任务。我们使用对比学习来增强特征嵌入中与任务相关的信息,同时抑制无关信息。我们在公开可用的多视图倾倒数据集和自定义的拾取与放置数据集上对所提出的方法进行了验证,并将其与时间对比网络(TCN)和对比多视图编码(CMC)基线进行了比较。我们使用三个指标来评估学习到的表征:视角对齐、阶段分类和强化学习。在所有情况下,与最先进的方法相比,结果都有所改进。

2025-02-21 15:41:47 957

原创 SOFT CONTRASTIVE LEARNING FOR TIME SERIES

Seunghan Lee, Taeyoung Park, Kibok Lee延世大学统计学与数据科学系{seunghan9613,tpark,kibok}@yonsei.ac.kr摘要:对比学习已被证明是一种从时间序列中以自监督方式学习表示的有效方法。然而,对比相似的时间序列实例或时间序列中相邻时间戳的值会导致忽略它们的内在相关性,从而降低学习到的表示的质量。为了解决这个问题,我们提出了 SoftCLT,这是一种简单而有效的时间序列软对比学习策略。这是通过引入实例级和时间对比损失,并使用介于 0 到 1

2025-02-20 16:02:05 774

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除