【论文阅读】基于视觉的导航与探索 NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration


论文链接: https://arxiv.org/pdf/2310.07896

![](https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=E%3A%5C%E8%B5%84%E6%96%99%5Ctechnical-documentation%5Cimage%5CNoMaD%5Cimage-20240726165557962.png&pos_id=img-5Eqs81mQ

0 摘要

在陌生环境中进行机器人学习的导航需要提供两种策略:一种是面向任务的导航(即到达机器人定位的目标),另一种是任务无关的探索(即在新环境中搜索目标)。通常情况下,这些角色由不同的模型处理,例如使用子目标提议、规划或不同的导航策略。在这篇论文中,我们描述了如何训练一个统一的扩散策略,既可以处理目标导向导航,也可以处理目标无关的探索。后者提供了在新环境中搜索的能力,而前者提供了一旦定位到目标就能达到用户指定目标的能力。我们展示了这种统一策略在导航到视觉指示目标时在新环境中的整体性能更佳,与使用生成模型的子目标提议或基于潜变量模型的先前方法相比表现更好。我们通过使用基于Transformer的大规模策略,并结合扩散模型解码器来实现我们的方法,该解码器能够灵活处理既有目标条件又有目标无关条件的导航。我们在实际移动机器人平台上进行了实验,展示了与五种替代方法相比在未知环境中的有效导航,并证明了在性能和碰撞率方面的显著改进,尽管我们使用的模型比最先进方法更小。

1 引言

机器人学习为我们提供了强大的工具,可以获取多任务策略,这些策略在以目标或其他任务规范为条件时,能够执行各种不同的行为。这样的策略不仅因其灵活性而吸引人,还因为它们可以利用来自各种任务和领域的数据,并通过在这些设置之间共享知识,获取性能更好且更具泛化能力的策略。然而,在实际情况下,我们可能会遇到机器人不知道应执行哪个任务的情况,因为环境陌生、任务需要探索,或者用户提供的指导不完整。在这项工作中,我们研究了在机器人导航领域中的这一特别重要问题,用户可能通过视觉方式指定目的地(例如通过图片),机器人必须在环境中搜索并找到这个目的地。在这种情况下,仅仅训练执行用户指定任务的标准多任务策略是不够的:我们还需要一种方法让机器人进行探索,可能尝试不同的任务(例如搜索环境中不同可能的目的地),然后找出如何执行所需任务(即找到感兴趣的对象)。以往的研究通常通过训练单独的高级策略或目标提议系统来解决这一挑战,这些系统生成适合的探索任务,例如使用高级规划[1]、分层强化学习[2]和生成模型[3]。然而,这种方法引入了额外的复杂性,并且通常需要任务特定的机制。我们是否可以训练一个单一的高度表现力策略,它既可以表示任务特定行为又可以表示任务无关行为,利用任务无关行为进行探索,并在需要解决任务时切换到任务特定行为呢?

在这篇论文中,我们提出了一个设计,通过结合Transformer主干用于编码高维视觉观测流和扩散模型来建模未来一系列动作,针对在新环境中进行视觉探索和目标寻找的特定问题进行实例化。我们的主要见解是,这样的架构非常适合建模任务特定和任务无关的路径,因为它具备高容量(用于建模感知和控制)以及表示复杂、多模态分布的能力。

我们工作的主要贡献是“带目标遮罩扩散导航”(Navigation with Goal Masked Diffusion, NoMaD),这是一种新颖的架构,用于在以往未见过的环境中进行机器人导航。NoMaD利用统一的扩散策略来同时表示探索性的任务无关行为和目标导向的任务特定行为,这一框架结合了图搜索、前沿探索和高度表现力的策略。我们评估了NoMaD在具有挑战性的室内和室外环境中无目标和有目标条件实验的表现,并报告了比最先进方法改进的结果,同时计算效率提高了15倍。据我们所知,NoMaD是第一个成功实例化目标条件动作扩散模型的例子,也是一个统一的模型,既可以处理任务无关行为又可以处理任务导向行为,并且在物理机器人上部署。

2 相关工作

探索新环境通常被构建为高效地绘制地图的问题,以信息最大化为导向,引导机器人到达新区域。一些先前的探索方法使用局部策略为机器人生成控制动作[4–7],而其他方法则使用基于前沿方法的全局策略[8–10]。然而,在没有可靠深度信息的情况下,构建高保真度的几何地图可能很困难。受先前工作的启发[1, 11, 12],我们将探索问题分解为:(i) 学习的控制策略,可以执行多样化的短时段动作,以及 (ii) 基于拓扑图的高级规划器,利用策略进行长时段目标寻找。

先前的几项工作提出了利用仿真中的特权信息或直接从真实世界经验中学习的基于学习的方法,用于机器人探索[13–16]。这些策略经过强化学习训练,以最大化覆盖率、预测语义丰富的区域、内在奖励[13, 14, 18, 19],或者结合潜变量和作用模型使用规划[17, 20, 21]。然而,仿真中训练的策略通常难以有效迁移到真实世界环境[16, 22],我们的实验表明,即使是在真实世界数据上训练的最佳探索策略,在复杂的室内和室外环境中表现也不佳。

与NoMaD最相关的相关工作是ViNT,它结合了一个目标条件的导航策略和一个独立的高容量子目标提议模型[3]。子目标提议模型被实例化为一个拥有3亿个参数的图像扩散模型[23],根据机器人当前的观测生成候选子目标图像。NoMaD对扩散模型的使用方式不同:我们并不是用扩散生成子目标图像并以此为条件,而是直接在机器人的观测条件下建模动作。经验上,我们发现NoMaD在无目标探索方面的表现超过了ViNT系统的25%以上。此外,由于NoMaD不生成高维图像,它所需的参数数量少于ViNT的15倍以上,提供了一种更紧凑、更高效的方法,可以直接在性能较低的板载计算机上运行(例如NVIDIA Jetson Orin)。

在预测机器人探索中的动作序列时,一个关键挑战是建模多模态动作分布的困难。先前的研究通过探索不同的动作表示方法来解决这个问题,如自回归预测量化动作[24–27]、使用潜变量模型[17, 21]、切换到隐式策略表示[28],以及最近使用条件扩散模型进行规划和控制[29–34]。特别是状态或观测条件的动作扩散模型[30, 31]尤为强大,因为它们能够在不增加推断未来状态/观测的成本和复杂性的情况下,对复杂的动作分布进行建模。NoMaD通过额外在动作分布中同时条件于机器人的观测和可选的目标信息,扩展了这一公式,首次实现了可以在目标条件和无目标模式下工作的“扩散策略”的实例化。

3 准备工作

我们的目标是设计一个控制策略 π \pi π,用于视觉导航,该策略将机器人当前和过去的RGB观测作为输入 o t : = o t − P : t o_t := o_{t−P :t} ot:=otP:t,并输出未来动作的分布 a t : = a t : t + H a_t := a_{t:t+H} at:=at:t+H。策略可能还可以访问一个目标的RGB图像 o g o_g og,该图像用于指定导航任务。当提供目标图像 o g o_g og 时, π π π 必须采取行动以向目标前进,并最终达到目标。在未见过的环境中,目标图像 o g o_g og 可能不可用, π π π 必须通过采取安全和合理的导航动作(例如避开障碍物、跟随走廊等),同时在环境中提供足够的行为覆盖,进行探索。为了促进长期探索和目标寻找,我们遵循ViKiNG [35]的设置,将 π ( o t ) π(o_t) π(ot) 与环境的拓扑记忆 M 和一个高级规划器配对,鼓励机器人通过导航到未探索区域来探索环境。

视觉目标条件策略:为了训练基于视觉输入的目标条件策略,我们沿用了大量先前采用Transformer架构进行高容量策略训练的工作 [3, 36–38]。具体来说,我们使用了Visual Navigation Transformer(ViNT)[3]策略作为处理机器人视觉观测 o t o_t ot 和目标 o g o_g og 的主干。ViNT使用EfficientNet-B0编码器 [39] ψ ( o i ) ψ(o_i) ψ(oi) 独立处理每个观测图像 i ∈ { t − P , . . . , t } i ∈ \{t − P, . . . , t\} i{tP,...,t},并使用目标融合编码器 ϕ ( o t , o g ) ϕ(o_t, o_g) ϕ(ot,og) 对输入进行标记化。这些标记使用多头注意力层 f ( ψ ( o i ) , ϕ ( o t , o g ) ) f(ψ(o_i), ϕ(o_t, o_g)) f(ψ(oi),ϕ(ot,og)) 进行处理,以获得一系列上下文向量,这些向量被连接以获得最终的上下文向量 c t c_t ct。上下文向量然后用于预测未来动作 a t = f a ( c t ) a_t = f_a(c_t) at=fa(ct) 和观测与目标之间的时间距离 d ( o t , o g ) = f d ( c t ) d(o_t, o_g) = f_d(c_t) d(ot,og)=fd(ct),其中 f a f_a fa f d f_d fd 是全连接层。策略使用监督学习训练,采用最大似然目标,对应于对地面真实动作和时间距离的回归。虽然ViNT在目标条件导航中展示了最先进的性能,但它无法执行无目标探索,并且需要外部的子目标提议机制。NoMaD扩展了ViNT,使其能够同时进行目标条件和无目标导航。

在拓扑地图中进行探索:虽然目标条件策略可以展示有用的作用和避碰行为,但对于需要在长时间段内进行推理的大型环境导航可能不足够。为了促进在大型环境中进行长时段探索和目标寻找,我们采用了ViKiNG [35]的设置,并将策略与 M M M形式的情节性记忆集成,该记忆是机器人在环境中经历的拓扑图。 M M M由图结构表示,节点对应于机器人在环境中的视觉观测,边对应于两个节点之间的可导航路径,这些路径由策略的目标条件距离预测确定。在导航大型环境时,机器人的视觉观测 o t o_t ot 可能不足以规划到目标的长时段轨迹。相反,机器人可以使用拓扑地图 M M M 规划一系列子目标,引导机器人到达目标。在探索以前未见过的环境时,我们在线构建 M M M,同时机器人在环境中搜索目标。除了无目标覆盖探索,这基于图的框架还支持实现到达高级目标 G G G 的能力,这些目标可能远在千里之外,并且可以指定为GPS位置、地图上的位置、语言指令等。在这项工作中,我们专注于基于前沿的探索,测试NoMaD提议多样化子目标并搜索未见过的环境的能力。我们主要沿用先前工作的设置 [35],将学习策略替换为NoMaD。

4 方法

与先前使用单独策略处理目标条件导航和开放式探索的工作不同,我们假设学习一个单一模型来处理这两种行为更为高效和具有泛化能力。通过跨这两种行为训练共享策略,使模型能够学习到更具表现力的动作先验 a t a_t at,既可以用于有条件推断,也可以用于无条件推断。在本节中,我们描述了我们提出的NoMaD架构,这是一个目标条件的扩散策略,可用于目标达成和无目标探索。NoMaD架构包括两个关键组成部分:(i) 基于注意力的目标遮罩,提供了一种灵活的机制,可以将策略条件化于(或屏蔽)可选的目标图像 o g o_g og​;以及 (ii) 扩散策略,提供了一个表达丰富的先验,用于机器人可以采取的无碰撞动作。图2显示了NoMaD架构的概述,下面我们详细描述每个组件。

在这里插入图片描述

A Goal Masking

为了训练一个适用于目标达成和无目标探索的共享策略,我们修改了第三节中描述的ViNT架构,引入了一个二元的“目标遮罩” m m m。具体来说,我们有 c t = f ( ψ ( o i ) , ϕ ( o t , o g ) , m ) c_t = f(ψ(o_i), ϕ(o_t, o_g), m) ct=f(ψ(oi),ϕ(ot,og),m),其中 m m m 用于遮罩掉目标标记 ϕ ( o t , o g ) ϕ(o_t, o_g) ϕ(ot,og),从而阻断策略的目标条件路径。我们通过设置目标遮罩 m = 1 m = 1 m=1 来实现屏蔽注意力,这样在计算 c t c_t ct 的下游过程中不会考虑目标标记。而当设置 m = 0 m = 0 m=0 时,则实现不屏蔽注意力,使得目标标记可以与观测标记一起在 c t c_t ct 的下游计算中使用。在训练过程中,目标遮罩 m m m 是从伯努利分布中采样得到的,采样概率为 p m p_m pm。我们在训练过程中使用固定的 p m = 0.5 p_m = 0.5 pm=0.5,这对应于训练样本中目标达成和无目标探索的样本数相等。在测试时,根据所需的行为设置 m m m 的值:对于无目标探索设置 m = 1 m = 1 m=1,对于达到用户指定目标图像设置 m = 0 m = 0 m=0。我们发现,这种简单的屏蔽策略对于训练一个既能处理目标达成又能进行无目标探索的单一策略非常有效。

B Diffusion Policy

虽然目标遮罩允许以一种方便的方式将策略条件化于目标图像,但由此产生的动作分布,特别是在没有提供目标时,可能非常复杂。例如,在交叉口,策略可能需要为左转和右转分配较高的概率,但对可能导致碰撞的任何动作分配较低的概率。训练一个单一策略来建模这样复杂的、多模态的动作序列分布是具有挑战性的。为了有效地建模这种复杂分布,我们使用扩散模型 [23] 来近似条件分布 p ( a t ∣ c t ) p(a_t|c_t) p(atct),其中 c t c_t ct 是在目标遮罩后获得的观测上下文。

我们从一个高斯分布中采样未来动作序列 a t K a^K_t atK,并进行 K K K 次去噪迭代,生成一系列噪声逐渐减少的中间动作序列 a t K , a t K − 1 , . . . , a t 0 {a^K_t, a^{K-1}_t, ..., a^0_t} atK,atK1,...,at0,直到形成所需的无噪声输出 a t 0 a^0_t at0。这个迭代去噪过程遵循以下方程:
a k − 1 = α ⋅ ( a t k − γ ϵ θ ( c t , a t k , k ) + N ( 0 , σ 2 I ) ) a^{k-1}=\alpha \cdot(a^k_t-\gamma \epsilon_\theta (c_t,a^k_t,k)+\mathcal{N}(0,\sigma^2I)) ak1=α(atkγϵθ(ct,atk,k)+N(0,σ2I))
其中 k k k为去噪步数, ϵ θ ϵ_θ ϵθ为参数化为 θ θ θ的噪声预测网络, α α α γ γ γ σ σ σ为噪声设置的函数。

噪声预测网络 ε θ ε_θ εθ 是根据观测上下文 c t c_t ct 进行条件化的,该上下文根据遮罩 m m m 的设置可能包含或不包含目标信息。请注意,我们建模的是条件(而不是联合)动作分布,将 c t c_t ct 排除在去噪过程的输出之外,这有助于实时控制和端到端训练扩散过程和视觉编码器。在训练过程中,我们通过向地面真实动作序列添加噪声来训练 ε θ ε_θ εθ。通过均方误差(MSE)损失比较预测的噪声与实际噪声。

训练细节

NoMaD模型架构如图2所示。我们在GNM和SACSoN数据集的组合上训练NoMaD,这些是在各种环境和机器人平台上收集的大型异构数据集,包括行人密集的环境,涵盖了超过100小时的真实世界轨迹数据[40, 41]。NoMaD通过端到端的监督学习进行训练,使用以下损失函数:
L N o M a D ( ϕ , ψ , f , θ , f d ) = M S E ( ϵ k , ϵ θ ( c t , a t 0 + ϵ k , k ) ) + λ ⋅ M S E ( d ( o t , o g ) , f d ( c t ) ) \mathcal{L}_{NoMaD}(\phi, \psi,f,\theta,f_d)=MSE(\epsilon^k,\epsilon_\theta(c_t,a^0_t+\epsilon^k,k))+\lambda\cdot MSE(d(o_t,o_g),f_d(c_t)) LNoMaD(ϕ,ψ,f,θ,fd)=MSE(ϵk,ϵθ(ct,at0+ϵk,k))+λMSE(d(ot,og),fd(ct))
其中, ψ ψ ψ ϕ ϕ ϕ 对应于用于观测图像和目标图像的视觉编码器, f f f 对应于Transformer层, θ θ θ 对应于扩散过程的参数, f d f_d fd 对应于时间距离预测器。超参数 λ = 1 0 − 4 λ = 10^{-4} λ=104 控制时间距离损失的相对权重。在训练过程中,我们使用目标遮罩概率 p m = 0.5 p_m = 0.5 pm=0.5,对应于相等数量的目标达成和无目标探索样本。扩散策略使用Square Cosine Noise Scheduler [42] 和 K = 10 K = 10 K=10 的去噪步骤进行训练。我们均匀采样一个去噪迭代次数 k k k,并从定义在第 k k k 次迭代中的方差中采样相应的噪声 ϵ k ϵ_k ϵk。噪声预测网络 ϵ θ ϵ_θ ϵθ 由一个具有15个卷积层的1D条件U-Net [29, 31] 组成。

我们使用 AdamW 优化器 [43],学习率为 1 0 − 4 10^{-4} 104​,并使用批量大小为 256 对 NoMaD 进行 30 个 epochs 的训练。我们采用余弦学习率调度和预热来稳定训练过程,并遵循 ViNT [3] 中的其他超参数设置。对于 ViNT 的观测编码器,我们使用 EfficientNet-B0 [39] 将观测和目标转换为 256 维的嵌入向量,然后使用一个包含 4 层和 4 个头的 Transformer 解码器。

在这里插入图片描述

5 评估

我们在6种不同的室内和室外环境中对NoMaD进行了评估,并制定了我们的实验来回答以下问题:

Q1:NoMaD与之前在现实环境中的视觉探索和目标达成方面的工作相比如何?

Q2:联合任务不可知论和任务特定策略与个人行为策略相比如何?

Q3:视觉编码器和目标掩蔽的选择对NoMaD的性能有多重要?

A 基准测试性能

针对理解问题1,我们将NoMaD与六个性能良好的基准方法在6个具有挑战性的真实环境中进行比较,这些环境用于探索和导航。我们遵循ViNT [3]的实验设置,并评估这些方法在以下能力上的表现:(i) 在搜索目标位置时有效地探索新环境,或者(ii) 在先前探索过的环境中,根据图像指示的目标位置到达目标,其中机器人使用策略来创建一个作为情节记忆的拓扑图。所有基准方法均在组合的GNM和SACSoN数据集上进行了为期20个epoch的训练,并进行了最小化的超参数调整以确保每个基准方法的稳定训练。我们报告了每个基准方法的平均成功率,以及每次实验中的平均碰撞次数。

VIB:我们使用作者实现的一种潜在目标模型来进行探索[17],该模型使用变分信息瓶颈(VIB)来建模在观测条件下动作的分布。

Masked ViNT:我们将我们的目标屏蔽技术与ViNT策略[3]集成,灵活地基于观测上下文ct进行条件化。这个基准方法预测未来动作在ct条件下的点估计,而不是建模分布。

自回归:这个基准方法使用在离散动作空间上的自回归预测,以更好地表示多模态动作分布。我们的实现使用动作分布的类别表示,目标屏蔽以及相同的视觉编码器设计。

子目标扩散:我们使用作者实现的ViNT系统[3],该系统将目标条件策略与用于生成候选子目标图像的图像扩散模型配对。这些候选子目标图像由策略用于预测探索动作。这是我们比较的最佳已发表基准方法,但比NoMaD使用的模型大15倍。

随机子目标:这是上述ViNT系统的一个变体,用随机从训练数据中抽样的候选子目标替代了子目标扩散,这些子目标传递给目标条件策略以预测探索动作。这个基准方法不使用图像扩散,并且与NoMaD具有可比较的参数数量。

在这里插入图片描述

表格I总结了我们在5个具有挑战性的室内和室外环境中的实验结果。VIB和Masked ViNT在我们测试的所有环境中表现不佳,并经常导致碰撞,这可能是由于难以有效建模多模态动作分布所致。自回归基准使用了更具表现力的策略类别,优于这些基准方法,但在复杂环境中仍然表现不佳。此外,部署的策略倾向于在环境中对动态障碍物反应迟钝且动作不连贯,这可能是由于离散动作空间造成的(请参阅补充视频以了解实验情况)。NoMaD始终优于所有基准方法,并生成平稳、反应灵敏的策略。在探索性目标发现方面,NoMaD在效率和避免碰撞方面比最佳已发表基准方法(子目标扩散)提高了超过25%,在除了最困难的环境外都取得了成功。在已知环境中使用拓扑图进行导航时,NoMaD的性能与最佳已发表基准方法相当,同时模型大小减小了15倍,并完全在边缘上运行。图4展示了NoMaD策略在搜索目标时在未知室内和室外环境中的示例回溯。

在这里插入图片描述

在跨基准方法中分析策略预测(见图5),我们发现,虽然自回归策略表示理论上可以表达多模态分布,但其预测通常是单模态的,相当于策略学习了平均动作分布。子目标扩散基准方法倾向于较好地表示多个模态,但鲁棒性不高。NoMaD在多次实验中一贯捕捉到多模态分布,且在条件化于目标图像时也能进行准确预测。

在这里插入图片描述

B 统一vs专用策略

具有任务特定和任务不可知能力的策略灵活性使得问题2旨在理解目标屏蔽对策略学习的个体行为影响。具体来说,我们比较了联合训练的NoMaD模型与表现最佳的目标条件和无指导模型的性能。我们将每个基准方法的平均成功率进行报告。

扩散策略:我们使用与NoMaD相同的视觉编码器训练扩散策略[31],并设置m = 0。这是最佳的探索基准方法,优于VIB和IBC两者。

ViNT策略:我们使用作者发布的ViNT导航策略[3]的检查点,该策略基于观察和目标预测未来动作的点估计。这是最佳的导航基准方法。

比较统一的NoMaD策略与上述方法,我们发现,尽管模型容量相当,使用目标屏蔽训练的统一策略在目标条件导航上与ViNT策略以及在无指导探索上与DP策略的表现相匹配。这表明,针对这两种行为的训练涉及学习共享的表示和适应性,单一策略确实可以同时在任务不可知和任务导向的行为中表现出色。

在这里插入图片描述

C 视觉编码器和目标屏蔽

为了理解问题3,我们探索了不同的视觉编码器和目标屏蔽架构的变化。我们考虑基于CNN和ViT骨干网络的两种备选视觉编码器设计,并采用不同的方式实现目标屏蔽。我们将每个基准方法的平均成功率以及每次实验中的平均碰撞次数进行报告。

早期/晚期融合CNN:我们使用卷积编码器,后跟一个MLP来编码观察和目标图像,并在目标嵌入上使用dropout,随后是另一个MLP块,灵活地将观察上下文 c t c_t ct条件化于目标。在dropout后得到的 c t c_t ct用于与NoMaD相同方式下扩散模型的条件化。在训练过程中,我们使用直通估计器[44]来传播梯度到观察和目标编码器。目标可以在最终的MLP层之前或之后与观察结合。

ViT:我们将观察和目标图像分成6×6的块,并使用Vision Transformer [45]编码它们成为观察上下文 c t c_t ct。我们使用注意力掩码来阻止目标块向下游传播信息。

我们发现视觉编码器的选择对训练扩散策略至关重要,如表III所总结的。NoMaD优于基于ViT和CNN的架构,成功达到目标并避免碰撞。早期融合的CNN优于晚期融合,这与之前的研究[3, 38]的分析结果相符,但在有效条件化目标信息方面存在挑战。尽管ViT编码器容量较大,但在训练时端到端与扩散模型的优化挑战可能导致其难以学习出良好的策略。

在这里插入图片描述

6 讨论

我们提出了NoMaD,这是第一个实现目标条件扩散策略的模型,能够同时进行任务无关的探索和任务导向的导航。我们的统一导航策略采用高容量的Transformer编码器和遮罩注意力方法,灵活地根据任务条件进行调节,例如使用目标图像进行导航,并使用扩散模型对观察条件下的动作进行建模。我们研究了这一统一模型在长时间跨度探索和在之前未见过的室内和室外环境中的导航性能,在之前未见的设置中表现出超过25%的性能提升,同时所需的计算资源减少了15倍。

,灵活地根据任务条件进行调节,例如使用目标图像进行导航,并使用扩散模型对观察条件下的动作进行建模。我们研究了这一统一模型在长时间跨度探索和在之前未见过的室内和室外环境中的导航性能,在之前未见的设置中表现出超过25%的性能提升,同时所需的计算资源减少了15倍。

尽管我们的实验展示了统一策略在新环境中提供更有效的导航的概念验证,但我们的系统存在一些限制,这些限制可以在未来的工作中得到解决。导航任务是通过目标图像指定的,虽然这种方法非常通用,但有时不是用户使用的最自然模态。将我们的方法扩展为一个完整的导航系统,能够适应包括语言和空间坐标在内的各种目标模态,将使我们的方法更广泛适用。此外,我们的探索方法使用了基于前沿的标准探索策略进行高级规划,利用我们的策略在前沿进行探索。智能选择要探索的区域,例如基于语义和先验知识的策略,可以进一步提高性能。我们希望这些方向能够实现更加实用和功能强大的系统,通过我们的策略表示实现这些目标。

  • 12
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值