强化学习-马尔可夫决策过程

本文深入探讨了强化学习中的马尔可夫决策过程(MDP),包括基本概念如智能体、环境、状态、动作、奖励和状态转移。介绍了状态空间、动作空间、奖励函数和状态转移函数,并讨论了动作和状态的随机性来源。此外,文章还详细阐述了回报与折扣回报的概念,以及价值函数的分类:动作价值函数、最优动作价值函数和状态价值函数。最后提到了实验环境OpenAI Gym在强化学习算法评估中的重要作用。
摘要由CSDN通过智能技术生成

目录

2.1 基本概念

2.2 随机性的来源

2.3 回报与折扣回报

2.3.1 回报

2.3.2 折扣回报

2.3.3 回报中的随机性

2.3.4 有限期 MDP 和无限期 MDP

2.4 价值函数

2.4.1 动作价值函数

2.4.2 最优动作价值函数

2.4.3 状态价值函数

2.5 实验环境


2.1 基本概念

强化学习主要就是基本概念比较多,容易混淆,不容易记住,主要说一下一些基本的概念。

强化学习可以看做成一个马尔可夫决策过程(MDP),一个MDP通常由状态空间、动作空间、奖励函数、状态转移函数等组成。

下面以小例子来谈一下几个概念:

智能体:强化学习的主体被称为智能体,例如超级玛丽;

环境:环境指的是智能体交互的对象,可以抽象地理解为交互过程中的规则或机理。在超级玛丽的例子中,游戏程序就是环境;

状态:超级玛丽面对的环境就是此时的状态;

状态空间:状态空间是指所有可能存在状态的集合,记为S。状态空间可以是有限的,也可以是无限的;可以是离散的,也可以是连续的。

动作:超级玛丽面对上述状态所采取的行动称为动作,可能是上、左和右;

动作空间:动作空间是指所有可能动作的集合记为AA = {上,左,右}。

奖励:智能体在执行一个动作后,与环境交互,环境返回给智能体一个数值。奖励往往由我们自己来定义,奖励定义得好坏非常影响强化学习的结果。

状态转移:智能体由t时刻的状态s转移到下一个时刻t+1的状态s^{^{'}};状态转移可能是随机的,而且强化学习通常假设状态转移是随机的,随机性来自于环境。

状态转移函数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值