目录
一分钟小视频:
什么是强化学习(Reinforcement Learning)?【知多少】_哔哩哔哩_bilibili
参考:
马尔科夫决策过程(Markov decision process, MDP)和马尔科夫奖励过程(Markov Reward Process)_老实人小李的博客-CSDN博客
强化学习并不是某种特定的模型或算法,而是一种训练方法
一句话概括:
Agent在Environment中,在某一state下,做出action,并收到reward
Agent主体是作出决策的一方,存在于environment环境中,agent每做出一个action动作,环境都会给予反馈,主体在评估反馈后作出下一个action,注意agent的每一个action都会对environment有影响、对environment作出改变,所以agent每次都要认识新的environmemt,分析判断后再做action。一切action的基础都是回报,他的目标是长期也就是未来的回报尽可能大。
也正是由于agent的每一个action都会对environment作出改变,所以强化学习无法使用数据集训练,只能通过真实环境或模拟器产生的数据来学习。由于计算量大,除了AlphaGO和游戏AI外落地应用并不多。
实际上:(1)推荐系统每次推荐都会影响人们购买,系统需要根据新的市场数据给出新的推荐。(2)股票市场中每个人每时每刻都买入卖出都会影响股价,交易系统需要了解新的环境后再行动。
强化学习分为两类:
- 基于模型的,试图用模型模拟真实环境
- 无模型,只根据反馈数据构建关于回报的模型
Agent
要知道它的目的是选择一系列动作因此获取最大的奖励,这是一连串的动作,且奖励也是会被延期的。因此强化学习的一个研究内容就是当前奖励与长期奖励的Trade-off。
一个智能体的组成部分如下:
- Policy:被Agent用来选取下一步动作的策略函数。
- Value function:被Agent用来对当前状态进行的估价,价值越大,说明当前状态对后期收益的影响越有利。
- Model:Agent对环境状态的理解,描述了“环境”是以什么样的规律运行的。
Policy
Policy实际上就是智能体的behavior model(行为模型),我们可以用一个函数来表示,这个函数将输入的状态转换为动作:
强化学习中有两种Policy:
- Stochastic policy:随机性策略。在输入状态s后,Policy输出的动作,并不是一个确定的值,而是在这个状态s上所有的动作被选到的概率分布。
- Deterministic policy:确定性策略。方法会根据当前输入状态,确定地选择一个动作。
Exploration & Exploitation
Exploration(探索)与Exploitation(开发)是元启发式算法的两个基本组成部分,二者之间的balance是强化学习中比较重要的核心内容。
Agent必须在基于先前经验看起来是好的事情(Exploitation)和未来可能会是好的事情(Exploration)之间做权衡。
- Exploration:更深入地探索搜索空间,找到不同的解决方案。尝试可能能够使得agent在未来做出更好决策的新事物。
- Exploitation:给定过去的经验选择能期望产生好的回报的动作,在搜索过程中使用局部信息来生成更好的解的步骤,通常在当前解的附近。
过多的Exploitation使得算法收敛速度很快,往往会收敛到局部最优;过多的Exploration虽然增加了找到优化问题全局或近似最优解的概率,但不断“试错”会减慢算法的收敛速度。
因此通常会有一个exploration-exploitation的权衡:可能不得不牺牲奖励以以便去探索和学习潜在的更好的策略。
Model
强化学习领域中的模型用于预测Environment接下来会做什么。
可以使用如下表达式:
- Predict the next state:
- Predict the next reward:
表示在t时间的状态s下做出的动作a,在t+1时间的状态s'的概率分布。
Environment
Environment中维护了一个状态,Agent在进行观测之后,又会得到一个状态:
- Full observability:当 Environment State 等于 Agent State 时,则是一个Markov decision process(MDP)问题。
- Partial observability:如果不相等,即Agent没有开“上帝视角”,则建模成一个partially observable Markov decision process(POMDP)问题。
MDP与POMDP
首先看下马尔可夫性:系统的下个状态只与当前状态信息有关,而与更早之前的状态无关。