Chapter1-强化学习问题
什么是强化学习?
强化学习涉及学习一种情景到行为的映射,以最大化一个数值表示的报酬信号。闭环(当前行为影响后续输入),无明确指导该采取什么行为,当前行为可能对未来的报酬有影响,这是强化学习的三大特征。
强化学习与监督学习与非监督学习的区别与联系:
1. 监督学习从有标签的样本学习从特征到标签的映射,非监督学习从无标签的样本学习数据的内部结构。强化学习是代理(agent)在与环境的交互中选择合适的行为来最大化报酬,它有特定的目标,但是根本无法获得足够的有标签样本。
2. 监督学习和非监督学习都从样本子集中学习知识,然后将知识应用到整个样本空间,知识的普适性是个问题。强化学习将问题作为一个整体强化学习将问题作为一个整体抽象成代理与未知环境之间的交互。
3. 强化学习独有的挑战是探索(exploration)与利用(exploitation)的均衡。探索是尝试新的行为,利用是在已经尝试过的行为中挑选最合适的,二者缺一不可。
4. 强化学习中,利用类似于监督学习,而学习数据的内部结构有助于解决问题。
强化学习中的基本概念:
代理,agent 强化学习中根据感知到的环境状态选择恰当行为以最大化目标的实体。
策略,policy 定义代理在给定时刻的行为集合,是一种从环境状态到行为的映射,一般是随机的。
报酬信号,reward signa 定义强化学习中的目标,输入是环境状态和代理的行为,输出一个数值。代理能通过改变行为来改变报酬信号的值,但是它不能改变值的计算方式。
价值函数,value function 报酬信号是即时的反馈,价值函数是从当下开始,在可预见的未来内报酬函数的总和。理论上强化学习应该最大化价值函数,但价值函数一般很难估计。
环境模型,environment model 可选的。在与环境的交互中,实体可能会预测出环境的模型。该模型能模拟真实环境的状态和对行为的响应。