基于深度强化学习的机器人手臂控制|学习笔记

简介:
利用深度强化学习对机器人手臂的控制
背景知识:

  1. 强化学习原理:如果智能体对某些动作进行奖励,之后执行该动作的概率就会增加;反之,若惩罚,执行概率就会降低。
  2. 强化学习分类:
    基于价值的强化学习:分析所处环境,输出下一步行动的概率分布,根据概率分布采取行动。
    基于策略的强化学习:输出每种行动的价值,一般是基于最高价值来选择行动。
    将二者结合,就是actor-critic算法:演员基于策略作出相关动作,而评论家利用价值函数,给出行动的价值分数,即在原有策略梯度的方法上,加速了策略学习的过程。
  3. 深度学习:对输入数据进行特征学习,并且通过分层次的多层网络得到特征信息,从而使机器理解学习数据,获得特征信息。
  4. 深度强化学习:深度学习用于提取数据,强化学习用于决策,二者结合可以给解决复杂系统的感知决策问题提供有效方法。
  5. DDPG算法:采用actor-critic框架,由4个神经网络组成,2个结相同的网络,分别是actor网络和critic网络。actor选出动作网络,输入状态,输出状态。critic网络评价动作网络,输入状态,输出Q值(机器人手臂的动作值)。对目标值与Q值的差,和其导数,作为误差,误差小则获得奖励多。
  • 4
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值