强化学习(一)

这个专栏是阅读郭宪博士书籍的笔记,笔记用来学习和参考,不做其他用途

强化学习应用:非线性倒立摆系统,下棋,机器人控制,视频游戏,人机对话,无人驾驶,机器翻译,文本预测。

什么是强化学习

  1. 最简单的强化学习数学模型是马尔可夫决策过程(MDP),这个模型对问题做了比较多的限制。
  • 面对的状态 s t s_t st,数量是有限的
  • 采取的行动方案 a t a_t at,数量是有限的。
  • 对应特定状态,当下的收益 r t r_t rt是明确的。
  • 在某个h时刻t,采取行动 a t a_t at后,达到的下一个状态s(t+1)有多种可能,不是确定的,而是概率的,状态转换概率P(s(t+1)i|st,at).注意只与当前状态有关,与之前的状态无关。
  1. 强化学习的目标是:减少对马尔可夫决策过程的限制,研究相应的算法
  • 假如状态离散数量有限但是巨大,如何降低动态规划算法的计算成本
  • 假设状态离散数量无限,如何改进算法
  • 假设状态是连续的,如何改进算法
  • 假设状态不能完全被观察到,只有部分被观察到
  • 假设状态完全不能被观察到,只能通过其他现象猜测潜在的状态。
  1. 强化学习与监督学习的区别
  • 强化学习解决的是序列决策问题,不关心输入是什么样子,只关心当前输入下应该采用什么动作才能实现最终的目标。
  • 两者都需要大量的数据,但是两者所需要的数据类型不同。监督学习需要多样化的标签数据,强化学习需要的是带有回报的数据。怎么获取数据和利用数据是我们需要探索的方法。
  1. 强化学习分类
  • 根据强化学习算法是否依赖模型分为:基于模型的强化学习算法和无模型的强化学习算法。
  • 根据策略的更新和学习方法,分为基于值函数的强化学习方法,基于直接策略搜索的强化学习算法以及AC的方法
  • 根据环境返回的回报函数是否已知,分为正向强化学习和逆向强化学习

附几个机器人仿真可视化软件

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

星光技术人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值