强化学习学习笔记(1)马尔可夫决策过程

本文介绍了强化学习的基础概念,重点讲解了马尔可夫性、马尔可夫过程以及马尔可夫决策过程。马尔可夫性指系统下一个状态仅与当前状态有关,而马尔可夫决策过程则加入了动作和回报,用于描述智能体如何在环境中学习最优策略。文章详细阐述了策略、累计回报、状态函数值、状态行为值函数和最优值函数的概念。
摘要由CSDN通过智能技术生成

强化学习基础---马尔可夫决策

强化学习算法利⽤产⽣的数据修改⾃⾝的动作策略,再与环境交互,产⽣新的数据,并利⽤新的数据进⼀步改善⾃⾝的⾏为,经过数次迭代学习后,智能体能最终学到完成相应任务的最优动作(最优策略)。强化学习的学习过程是动态的、不断交互的过程,所需要的数据也是通过与环境不断交互所产⽣的。

                                                                                


马尔可夫性:

所谓⻢尔科夫性是指系统的下⼀个状态st+1仅与当前状态st 有关,⽽与以前的状态⽆关。

定义:状态st 是⻢尔科夫的,当且仅当P[st+1 |st ]=P[st+1 |s1 ,…,st ]。 定义中可以看到,当前状态st 其实是蕴含了所有相关的历史信息s1 , …,st ,⼀旦当前状态已知,历史信息将会被抛弃。(P[st+1|st]是指的在状态st情况下转移到状态st+1的概率)


马尔可夫过程:

⻢尔科夫过程是⼀个⼆元组(S,P),且满 ⾜:S是有限状态集合,P是状态转移概率。状态转移概率矩阵为:

                                                                            

例如:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值