机器学习根据数据的标签可分为有监督学习、无监督学习和强化学习三种,其中有监督学习已知类标签,无监督学习不知道类标签,强化学习不知道类标签但是可通过学习或反馈来获得类标签,因此也可将强化学习看成是“延迟标记信息”的类标签。
强化学习定义
强化学习是机器学习的一个领域,其强调如何基于环境而行动,以取得最大化的预期利益。强化学习简单来说就是一个智能体在某个状态下采取相应的动作,从而在环境中达到另一个状态,在状态转移的同时获得瞬间奖励值。学习的目的是选择合适的动作,使得获得的累计奖励值最大。
强化学习要素
强化学习的模型由环境,智能体,状态,动作和奖励函数五个部分组成
环境
接收智能体执行的动作后,发生变化,同时产生一个强化信号反馈给智能体。
智能体
选择并执行一个动作(选择动作的标准是使得智能体获得的奖励函数值最大)
状态
当前所处的状态,常用S表示有限状态集,有s∈S,si表示第i步的状态
动作
即当前时刻下采取的动作,常用A表示有限动作集,有a∈A,ai表示第i步采取的动作。执行动作使其奖励函数达到最大化期望,直到最终算法收敛,所得的策略就是一系列动作的有序数据。
奖励函数
用来评估某个状态下采取某个动作后获得的奖励值,t时刻下的奖励函数值通常都被记作 Rt
强化学习分类
强化学习可分为有模型学习和无模型学习两类,其中有模型学习是指已知状态S、动作A,转移至下一状态的概率P及获得奖励R的学习方式。
两者的区别如下:
有模型 | 无模型 | |
---|---|---|
控制算法 | 值迭代、策略迭代 | Q-learning、Sarsa |
预测方法 | 动态规划DP | MC;TD |
优点 | 高效利用数据、智能体与环境之间的交互次数会急剧减少 | 渐进收敛 |
缺点 | 复杂性很高、拟合的模型存在偏差、不能保证最优解渐近收敛。 | 智能体与环境之间不断的交互来获得对环境的感知,交互次数很多 |