基于强化学习的机器人抓取之 stochastic search

千羽QY

已于 2022-05-25 17:18:17 修改

阅读量634

点赞数 1

分类专栏：机器人-强化学习文章标签：强化学习随机优化

于 2022-05-25 17:14:37 首次发布

本文链接：https://blog.csdn.net/qq_40081208/article/details/124969879

版权

机器人-强化学习专栏收录该内容

20 篇文章 12 订阅

订阅专栏

前言

最近看google的机器人抓取算法QT-Opt，该方法通过stochastic search为每一个state选择action。沿着参考文献一路找到google的Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection，以及Deep Reinforcement Learning for Vision-Based Robotic Grasping: A Simulated Comparative Evaluation of Off-Policy Methods，最终搞懂了stochastic search的原理。

stochastic search

也称为 stochastic optimazation。
大概思路是：首先随机选择一些actions，然后通过 Q-function 选出 Q-value 最大的action去执行。
抓取任务中，常用的随机选择actions的方法如下：
1、随机均匀采样：以当前机械臂末端位置为中心，随机均匀采样 $n$ 个actions。该篇论文的 $n = 16$ 。
2、cross-entropy optimization method：
（1）假设action满足均值为机械臂末端当前位置的高斯分布，
（2）以上述高斯分布随机选择 $M$ 个action
（3）计算每个action的Q-value
（4）选取Q最高的 $N$ 个action，计算这组action的均值和方差，并更新上述高斯分布的均值和方差
重复步骤（2-4） $n$ 次，最终得到 $N$ 个候选action。
google 的 Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection 论文中 $M = 64, N = 6$ ，步骤（2-4）重复了3次。