Meta-World环境学习（2）pick-place-v2环境简介

最新推荐文章于 2025-03-08 20:59:56 发布

Cocojalz

最新推荐文章于 2025-03-08 20:59:56 发布

阅读量1.4k

点赞数 1

分类专栏： Meta-World 文章标签：学习 java 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37051669/article/details/126607105

版权

Meta-World 专栏收录该内容

2 篇文章

订阅专栏

本文详细介绍了Meta-World中的基础环境pick-place-v2，包括其状态组成（39维，含部分可观测目标）、动作控制（4维，涉及爪子位移与闭合）以及奖励机制（基于物体距离和目标定位）。状态分为当前观测、上一时刻观测和目标位置三部分，而目标位置在源码中被设为0，这在训练中的作用有待探讨。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

pick-place-v2是Meta-World中最基础的环境了，属于Meta-World中的ML1，在这个任务中，我们的目标就是让机械臂学会先夹取目标物，然后移动到目标位置。

1、环境简介

1.1 状态State

pick-place-v2的state共有39个维度。其中分为3部分，前13个维度是当前的一些观测值，后13个维度是上一时刻的观测值，最后3个维度是目标的位置，也就是图中蓝色小球的坐标。

比较奇怪的是源码中的sawyer_xyz_env.py中_get_obs(self)函数中有个部分可观的判断，然后就将目标3个维度置为0了，关键是在这个环境中，这个if判断是成立的。我不是非常理解，不给目标那训练的目的是啥。

if self._partially_observable:
    pos_goal = np.zeros_like(pos_goal)

1.2 动作Action

pick-place-v2环境的action共有4个维度。前3个维度分别控制爪子部分的左右、前后、上下移动，很简单，并不涉及机械臂的控制，很好理解。第4个维度是爪子的闭合控制，大于0的时候爪子收缩，小于0的时候爪子张开，当然，爪子的开闭有最大最小幅度限制。

1.3 奖励Reward

奖励也大概分成3部分，首先考虑爪子距离物体的距离给予一定的奖励，这部分奖励很小，大概在0.04左右，且爪子越靠近物体，奖励越大，最大大概0.13。当爪子将物体拖离地面之后，考虑第二部分奖励，此时考虑物体与目标的距离，离目标距离越近，奖励越大。这部分奖励较大，大概从2左右到7左右。第二部分的奖励会和第一部分叠加。最后考虑是否到达目标的奖励，如果物体距离目标距离小于0.05，那么奖励就是10，不与前两个奖励叠加。

2、状态详解

状态共拆分为3个部分，我们就以第一部分来分析，第一部分总共13个状态。

前三个为手部的x,y,z坐标，第4个是爪子的开闭状态，第5、6、7个是物体的坐标，第8、9、10、11个是物体移动的速度（猜的），后几位全是0

然后第二部分和第一部分一样，第三部分的3个值是目标的坐标。

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。