#强化学习基础
##1 基本定义
强化学习:由智能体和环境组成;解决智能体如何在复杂多样的环境中使其获得的奖励最大化的问题;
强化学习与监督学习区别:
(1)强化学习的样本是序列数据,监督学习的样本是独立同分布的;
(2)强化学习的学习器无法告知下一步的正确动作,需要通过多次尝试去发现能获得最大奖励的动作;
(3)强化学习通过不断的探索和利用来完善自身能力;
(4)使用监督学习能立即获得指导信号,强化学习只有奖励信号,且是延迟的;
强化学习基本特征:
(1)需要不断探索环境获取对环境的理解;
(2)Agent会从Environment中获得延迟奖励;
(3)训练过程中,数据与时间关联;
(4)强化学习中Agent的Action能影响后续反馈;
##2 序列决策
序列决策过程:智能算法对环境的一系列反馈做出的相对应决策过程。
状态与观测:状态是对世界的完整描述,信息没有隐藏;观测是对状态的部分描述,存在信息遗漏;在强化学习中总是用实值的向量、矩阵或更高阶的张量来表示状态和观测。
##3 动作空间
定义:有效的动作集合被称为动作空间;包括离散动作空间和连续动作空间。
##4智能体的组成成分和类型
一个强化学习智能体包含策略、价值函数和模型三个部分。
策略:策略是智能体的动作模型,决定了其动作;实质是一种用于把输入状态变成动作的函数;策略分为随机性策略和确定性策略。随机性策略:智能体对于观测的结果以某种概率决定下一步动作;确定性策略:智能体直接采取最有可能的动作。
价值函数:函数值是对未来奖励的预测,用于评估状态的好坏;价值函数越大,越有利;
模型:模型决定了下一步状态,下一步状态取决于当前的状态和采取的动作。模型由状态转移概率和奖励函数两部分组成。转移函数为动作间的转移概率,奖励函数为智能体在当前状态彩群某个动作得到的奖励大小。
##4 强化学习智能体类型
###4.1 基于价值的智能体与基于策略的智能体
基于价值的智能体显式地学习价值函数,隐式地学习策略;策略从学到的价值函数里推算出来。
基于策略的智能体直接学习策略,给其一个状态,就能输出对应动作的概率。
###4.2 有模型强化学习智能体与免模型强化学习智能体
有模型强化学习智能体通过学习状态的转移来采取动作。根据环境中的经验,构建一个虚拟世界,同时在真实环境和虚拟世界中学习。
免模型强化学习智能体通过学习价值函数和策略函数进行决策;模型内没有环境转移的模型,不对环境建模,直接与真实环境进行交互来学习到最优策略。
学习和规划是序列决策的两个基本问题;
探索和利用是强化学习的两个核心问题。