强化学习知识总结(一)

本文介绍了强化学习的基本概念,包括智能体如何通过与环境交互获取状态、决策和奖励,以及随机性在过程中的影响。同时,对比了强化学习与有监督学习在数据分布和训练优化途径上的差异。
摘要由CSDN通过智能技术生成

什么是强化学习

强化学习是机器通过与环境交互来实现目标的一种计算方法

机器和环境的一轮交互是指机器在环境的一个状态下做一个动作决策,把这个动作作用到环境当中,这个环境发生相应的改变并将相应的奖励反馈和下一轮状态传回机器。机器的目标是最大化在多轮交互过程中获得的累计奖励的期望。

智能体Agent

强化学习用“智能体”这一概念表示做决策的机器

智能体和环境的交互方式:

智能体感知到环境目前所处的状态,经过自身计算给出本轮的动作,将其作用到环境中;

环境得到智能体的动作后,产生相应的即时奖励信号并发生状态转移。

三个关键概念:

感知:智能体在某种程度上感知环境的状态从而知道自己的现状

决策:智能体根据当前的状态计算出达到目标需要采取的动作的过程

奖励:环境根据状态和智能体采取的动作,产生一个标量信号作为奖励反馈

强化学习的随机性

(1)智能体决策的动作随机性

(2)环境基于当前状态和智能体动作来采样下一刻状态的随机性

强化学习的目标

智能体的整体回报:

前面提到,奖励信号是一个标量,整个交互过程中每一轮获得的奖励信号可以进行累加,形成智能体的整体回报

 在强化学习中,我们关注回报的期望,并将其定义为价值,这就是强化学习中智能体学习的优化目标

有监督学习vs强化学习

(1)数据分布:有监督学习的训练数据集的数据分布是完全不变的;在强化学习中,数据经过智能体和环境的交互得到,当前智能体的训练数据来自之前的决策结果,由于策略会在训练过程中不断更新,因此对应的数据分布也会相应的改变

(2)训练优化途径:有监督学习直接通过优化模型对于数据特征的输出来优化目标,即修改目标函数而数据分布不变;强化学习则通过改变策略来调整智能体和环境交互数据的分布进而优化目标,即修改数据分布而目标函数不变

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值