强化学习从零开始从无到有

目录

Agent

Policy

Exploration & Exploitation

Model

Environment

MDP与POMDP


 一分钟小视频:

​​​​​​​什么是强化学习(Reinforcement Learning)?【知多少】_哔哩哔哩_bilibili

参考:

01 强化学习Agent的基础内容 - 知乎

马尔可夫决策过程 - 知乎

马尔科夫决策过程(Markov decision process, MDP)和马尔科夫奖励过程(Markov Reward Process)_老实人小李的博客-CSDN博客

<规划与决策>—MDP、POMDP及其应用 - 简书

POMDP与MDP的区别?部分可观测如何理解? - 知乎

强化学习并不是某种特定的模型或算法,而是一种训练方法

一句话概括:

Agent在Environment中,在某一state下,做出action,并收到reward

Agent主体是作出决策的一方,存在于environment环境中,agent每做出一个action动作,环境都会给予反馈,主体在评估反馈后作出下一个action,注意agent的每一个action都会对environment有影响、对environment作出改变,所以agent每次都要认识新的environmemt,分析判断后再做action。一切action的基础都是回报,他的目标是长期也就是未来的回报尽可能大。

也正是由于agent的每一个action都会对environment作出改变,所以强化学习无法使用数据集训练,只能通过真实环境或模拟器产生的数据来学习。由于计算量大,除了AlphaGO和游戏AI外落地应用并不多。

实际上:(1)推荐系统每次推荐都会影响人们购买,系统需要根据新的市场数据给出新的推荐。(2)股票市场中每个人每时每刻都买入卖出都会影响股价,交易系统需要了解新的环境后再行动。

强化学习分为两类:

  1. 基于模型的,试图用模型模拟真实环境
  2. 无模型,只根据反馈数据构建关于回报的模型

Agent

要知道它的目的是选择一系列动作因此获取最大的奖励,这是一连串的动作,且奖励也是会被延期的。因此强化学习的一个研究内容就是当前奖励与长期奖励的Trade-off。

一个智能体的组成部分如下:

  • Policy:被Agent用来选取下一步动作的策略函数。
  • Value function:被Agent用来对当前状态进行的估价,价值越大,说明当前状态对后期收益的影响越有利。
  • Model:Agent对环境状态的理解,描述了“环境”是以什么样的规律运行的。

Policy

Policy实际上就是智能体的behavior model(行为模型),我们可以用一个函数来表示,这个函数将输入的状态转换为动作:

强化学习中有两种Policy:

  • Stochastic policy:随机性策略。在输入状态s后,Policy输出的动作,并不是一个确定的值,而是在这个状态s上所有的动作被选到的概率分布。
  • Deterministic policy:确定性策略。方法会根据当前输入状态,确定地选择一个动作。

Exploration & Exploitation

Exploration(探索)与Exploitation(开发)是元启发式算法的两个基本组成部分,二者之间的balance是强化学习中比较重要的核心内容。

Agent必须在基于先前经验看起来是好的事情(Exploitation)和未来可能会是好的事情(Exploration)之间做权衡。

  • Exploration:更深入地探索搜索空间,找到不同的解决方案。尝试可能能够使得agent在未来做出更好决策的新事物。
  • Exploitation:给定过去的经验选择能期望产生好的回报的动作,在搜索过程中使用局部信息来生成更好的解的步骤,通常在当前解的附近。

过多的Exploitation使得算法收敛速度很快,往往会收敛到局部最优;过多的Exploration虽然增加了找到优化问题全局或近似最优解的概率,但不断“试错”会减慢算法的收敛速度。

因此通常会有一个exploration-exploitation的权衡:可能不得不牺牲奖励以以便去探索和学习潜在的更好的策略。

Model

强化学习领域中的模型用于预测Environment接下来会做什么

可以使用如下表达式:

  • Predict the next state: 
  • Predict the next reward:

  ​表示在t时间的状态s下做出的动作a,在t+1时间的状态s'的概率分布。

Environment

Environment中维护了一个状态,Agent在进行观测之后,又会得到一个状态:

  • Full observability:当 Environment State 等于 Agent State 时,则是一个Markov decision process(MDP)问题。
  • Partial observability:如果不相等,即Agent没有开“上帝视角”,则建模成一个partially observable Markov decision process(POMDP)问题。

MDP与POMDP

首先看下马尔可夫性:系统的下个状态只与当前状态信息有关,而与更早之前的状态无关。

马尔可夫决策过程 - 知乎

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值