强化学习(一)

最新推荐文章于 2022-11-25 17:02:15 发布

星光技术人

最新推荐文章于 2022-11-25 17:02:15 发布

阅读量268

点赞数

分类专栏：强化学习文章标签：算法人工智能机器学习强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qhu1600417010/article/details/115858253

版权

强化学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

这个专栏是阅读郭宪博士书籍的笔记，笔记用来学习和参考，不做其他用途

强化学习应用：非线性倒立摆系统，下棋，机器人控制，视频游戏，人机对话，无人驾驶，机器翻译，文本预测。

什么是强化学习

最简单的强化学习数学模型是马尔可夫决策过程（MDP）,这个模型对问题做了比较多的限制。

面对的状态 $s_t$ ,数量是有限的
采取的行动方案 $a_t$ ,数量是有限的。
对应特定状态，当下的收益 $r_t$ 是明确的。
在某个h时刻t，采取行动 $a_t$ 后，达到的下一个状态s_(t+1)有多种可能，不是确定的，而是概率的，状态转换概率P(s_(t+1)ⁱ|s_t,a_t).注意只与当前状态有关，与之前的状态无关。

强化学习的目标是：减少对马尔可夫决策过程的限制，研究相应的算法

假如状态离散数量有限但是巨大，如何降低动态规划算法的计算成本
假设状态离散数量无限，如何改进算法
假设状态是连续的，如何改进算法
假设状态不能完全被观察到，只有部分被观察到
假设状态完全不能被观察到，只能通过其他现象猜测潜在的状态。

强化学习与监督学习的区别

强化学习解决的是序列决策问题，不关心输入是什么样子，只关心当前输入下应该采用什么动作才能实现最终的目标。
两者都需要大量的数据，但是两者所需要的数据类型不同。监督学习需要多样化的标签数据，强化学习需要的是带有回报的数据。怎么获取数据和利用数据是我们需要探索的方法。

强化学习分类

根据强化学习算法是否依赖模型分为：基于模型的强化学习算法和无模型的强化学习算法。
根据策略的更新和学习方法，分为基于值函数的强化学习方法，基于直接策略搜索的强化学习算法以及AC的方法
根据环境返回的回报函数是否已知，分为正向强化学习和逆向强化学习

附几个机器人仿真可视化软件

星光技术人

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

星光技术人 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。