机器学习---强化学习

最新推荐文章于 2024-05-24 03:49:26 发布

enough_time

最新推荐文章于 2024-05-24 03:49:26 发布

阅读量1k

点赞数

分类专栏：机器学习网络空间安全文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/sfakh/article/details/120423098

版权

19 篇文章 14 订阅

订阅专栏

10 篇文章 1 订阅

订阅专栏

机器学习根据数据的标签可分为有监督学习、无监督学习和强化学习三种，其中有监督学习已知类标签，无监督学习不知道类标签，强化学习不知道类标签但是可通过学习或反馈来获得类标签，因此也可将强化学习看成是“延迟标记信息”的类标签。

强化学习定义

强化学习是机器学习的一个领域，其强调如何基于环境而行动，以取得最大化的预期利益。强化学习简单来说就是一个智能体在某个状态下采取相应的动作，从而在环境中达到另一个状态，在状态转移的同时获得瞬间奖励值。学习的目的是选择合适的动作，使得获得的累计奖励值最大。

强化学习的模型由环境，智能体，状态，动作和奖励函数五个部分组成

接收智能体执行的动作后，发生变化，同时产生一个强化信号反馈给智能体。

选择并执行一个动作(选择动作的标准是使得智能体获得的奖励函数值最大)

当前所处的状态，常用S表示有限状态集，有s∈S，s_i表示第i步的状态

即当前时刻下采取的动作，常用A表示有限动作集，有a∈A，a_i表示第i步采取的动作。执行动作使其奖励函数达到最大化期望，直到最终算法收敛，所得的策略就是一系列动作的有序数据。

用来评估某个状态下采取某个动作后获得的奖励值，t时刻下的奖励函数值通常都被记作 R_t

强化学习可分为有模型学习和无模型学习两类，其中有模型学习是指已知状态S、动作A，转移至下一状态的概率P及获得奖励R的学习方式。
两者的区别如下：

	有模型	无模型
控制算法	值迭代、策略迭代	Q-learning、Sarsa
预测方法	动态规划DP	MC；TD
优点	高效利用数据、智能体与环境之间的交互次数会急剧减少	渐进收敛
缺点	复杂性很高、拟合的模型存在偏差、不能保证最优解渐近收敛。	智能体与环境之间不断的交互来获得对环境的感知，交互次数很多

关注

专栏目录