基于强化学习的机器人抓取之 stochastic search

前言

最近看google的机器人抓取算法QT-Opt,该方法通过stochastic search为每一个state选择action。沿着参考文献一路找到google的Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection,以及Deep Reinforcement Learning for Vision-Based Robotic Grasping: A Simulated Comparative Evaluation of Off-Policy Methods,最终搞懂了stochastic search的原理。

stochastic search

也称为 stochastic optimazation。
大概思路是:首先随机选择一些actions,然后通过 Q-function 选出 Q-value 最大的action去执行。
抓取任务中,常用的随机选择actions的方法如下:
1、随机均匀采样:以当前机械臂末端位置为中心,随机均匀采样 n n n个actions。该篇论文的 n = 16 n=16 n=16
2、cross-entropy optimization method
(1)假设action满足均值为机械臂末端当前位置的高斯分布,
(2)以上述高斯分布随机选择 M M M个action
(3)计算每个action的Q-value
(4)选取Q最高的 N N N个action,计算这组action的均值和方差,并更新上述高斯分布的均值和方差
重复步骤(2-4) n n n次,最终得到 N N N个候选action。
google 的 Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection 论文中 M = 64 , N = 6 M=64,N=6 M=64,N=6,步骤(2-4)重复了3次。

cross-entropy optimization method的介绍可以参考http://t.csdn.cn/FlcOt。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值