强化学习总结——对于离散空间

本文介绍了强化学习的基本概念,包括动态规划、蒙特卡罗方法和时间差分方法。强化学习是智能体从环境到行为的学习,旨在最大化期望积累奖励。文章通过MDP(马尔科夫决策流程)解释了状态值函数、动作值函数以及策略评估和改进。动态规划适用于完全了解环境的MDP,蒙特卡罗方法依赖于统计,而时间差分方法则能处理连续性任务。
摘要由CSDN通过智能技术生成

什么是强化学习?

强化学习(reinforcement learning)是一种重要的机器学习方法。所谓强化学习就是智能体从环境到行为映射的学习,目标是最大化期望积累奖励。强化学习广泛应用于无人驾驶汽车,棋类游戏和机器人等领域当中。强化学习不属于监督学习,也不属于非监督学习。

基本概念

阶段性任务:智能体与环境的互动在一个特定的时间步T结束

连续性任务:智能体一直与环境互动没有限制

强化学习目标:最大化期望积累奖励   即Gt = Rt+1 + Rt+2 +Rt+3 +Rt+4 +...

                        由于我们希望智能体更关注当前获得的奖励,所以将上式改进为折扣奖励

                        即Gt = Rt+1 + γRt+2 +γ²Rt+3 +γ³Rt+4 +...  其中γ∈[0,1]  

                        γ越小,智能体越关注当前获得的奖励,γ越大,智能体越关注未来所能获得的奖励

强化学习任务通常用MDP(马尔科夫决策流程)来描述

    主要包括:① 有限状态集合S

                     ② 有限动作集合A

                     ③ 有限奖励集合R

                     ④ 环境的一步动态特性  P(s',r|s,a) = P(St+1 = s',Rt+1 = r|St = s,At = a) for all s,s',and r

其中有限MDP:状态空间S和动作空间A都必须使有限的

对于有限MDP,解决强化问题主要有动态规划,蒙特卡罗方法和时间差分方法。

一、动态规划

在动态规划设置中,智能体完全了解环境特性的马尔科夫决策流程(MDP),比强化学习简单很多,强化学习中智能体需要与环境互动来获得MDP。

那么如何对策略π进行评估?——采用状态值函数Vπ(S),对于状态S的状态值函数是指从该状态开始,每一步都遵循策略π所获得的折扣奖励Gt。

计算状态值函数要用到贝尔曼方程 vπ(s)=Eπ[R

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值