强化学习和控制

最新推荐文章于 2024-05-26 14:45:30 发布

AlmostFree

最新推荐文章于 2024-05-26 14:45:30 发布

阅读量5.3k

点赞数

分类专栏： Machine Learning 文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013508213/article/details/52207429

版权

马尔科夫决策过程MDP
值迭代和政策迭代
MDP模型
无限状态的MDPs
- 离散化
- 值函数估计
  - 使用一个模型或模拟器
  - 适应值迭代

在强化学习中，我们将提供一个奖赏函数，当目标完成的好时，便奖赏；当目标完成的不好时，就惩罚。鞭策算法走一条良好的道路。

马尔科夫决策过程（MDP）

一个Markov decision process是一个元组 $(S, A,{P_{sa}}, \gamma, R)$ 。其中：

$S$ 是状态集。比如在自动直升机驾驶中， $S$ 就是直升机的所有可能位置，方向。
$A$ 是行动。比如所有你能控制直升机的方向。
$P_{sa}$ 是状态转移概率。对于每个状态 $s \in S$ 每个行动 $a \in A$ ， $P_{sa}$ 给出了当我们在状态 $s$ 采取行动 $a$ 时，我们将会转移到的状态的分布。
$\gamma \in [0, 1)$ 称为阻尼系数。
$R:S*A->RealNumber$ 叫做回报函数。

MDP的动态过程：从初始状态 $s_0$ 开始，采取行动 $a_0 \in A$ ；MDP过程向前推进，按分布 $s_1∼P_{s_0a_0}$ 随机转换到下一个状态 $s_1$ 。以此类推，不断转换。用流程可以表示为：
$s_0->(a_0)->s_1->(a_1)->s_2->(a_2)->...$
定义其总花费：
$R(s_0, a_0)+\gamma R(s_1, a_1)+\gamma^2R(s_2,a_2)+...$
我们要做的是选择随时间变化的行动，来使得总花费的期望值最大：
max,E[R(s0,a0)+γR(s1

最低0.47元/天解锁文章

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
强化学习和控制

[TOC] 在强化学习中，我们将提供一个奖赏函数，当目标完成的好时，便奖赏；当目标完成的不好时，就惩罚。鞭策算法走一条良好的道路。总的来说，这其实就是负反馈的思想啊！马尔科夫决策过程（MDP）一个Markov decision process是一个元组(S,A,Psa,γ,R)(S, A,{P_{sa}}, \gamma, R)。其中：SS是状态集。比如在自动直升机驾驶中，SS就是直升机的所有可
复制链接

扫一扫

专栏目录

AlmostFree CSDN认证博客专家 CSDN认证企业博客

码龄11年

464: 原创

13万+: 周排名

180万+: 总排名

33万+: 访问

: 等级

7819: 积分

69: 粉丝

39: 获赞

50: 评论

81: 收藏

私信

关注

热门文章

分类专栏

模拟 36篇
动态规划 70篇
贪心 13篇
暴力枚举 9篇
搜索 34篇
数论数学 81篇
字符串 23篇
二分三分 12篇
计算几何 19篇
图论 69篇
数据结构 49篇
练习赛 19篇
cfGo 7篇
linux 5篇
Machine Learning 31篇
opencv 1篇
crazy minds 1篇
Hash 2篇

最新评论

PQ-源码解析
Joey_huuuu: 楼主的代码中缺少yael_nn函数，跑不起来耶
poj 2480 （积性函数+素因子和）
FawkesLi: 为啥和函数是积性函数？初等数论那本书上只说了F(n)=Σf(d)(d|n)是积性函数，又没说前缀和是积性函数
CS229 ProblemSet记录
cnh2n2mg: PS1 logistic regression 中 g(z)写错了，“g(z)=1/(z+e−z)” 应为g(z)=1/(1+e-z)
poj 3109 离散化+扫描线+树状数组
隐语的影法師: 写的真好，图示给的好，代码也好懂，比网上N多寥寥数言的博客强太多~ 当然，要是您进一步指出 c 的含义是 [1,...m] （m是不同的y坐标的个数）中1的个数的部分和就更好了~ 谢谢大佬教诲！
神经网络手写识别例子 matlab实现
北方小城: 这是深度学习？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。