《从机器学习到深度学习》笔记(3)强化学习

强化学习是机器学习的一个独特分支,通过智能代理与环境的交互来学习最优行为模式。它由五个要素构成:智能代理、环境、状态、行为和反馈。延迟获得的奖励使得强化学习区别于有监督学习。主要应用于状态预测和控制问题,包括基于策略和基于价值的学习算法。尽管应用仍有限,但强化学习在游戏和工业控制等领域展现出潜力。
摘要由CSDN通过智能技术生成

  强化学习是对英文Reinforced Learning的中文翻译,它的另一个中文名称是“增强学习”。相对于有监督学习和无监督学习,强化学习是一个相对独特的分支;前两者偏向于对数据的静态分析,后者倾向于在动态环境中寻找合理的行为决策。

强化学习的行为主体是一个在某种环境中独立运行的Agent(可以理解为“机器人”), 其可以通过训练获得在该环境中的最佳行为模式。强化学习被看成是最接近人工智能的一个机器学习领域。

思考:为什么说强化学习是最接近人工智能的一个机器学习领域?

1. 五个要素

强化学习的场景由两个对象构成,它们是:

  1. 智能代理(Agent):是可以采取一系列行动以达到某种目标的控制器,可以形象的将其理解为机器人大脑。比如自动驾驶的控制器、打败李世石的AlphaGo。
  2. 环境(Environment):是Agent所能感知和控制的世界模型。对自动驾驶来说,Environment就是Agent所能感知到的路况和车本身的形式能力,对AlphaGo来说,Environment包括棋盘上的每种状态和行棋规则。

这两个对象其实定义了机器人和其所能感知到的世界。而就像人类能在自己的世界中行走、享受阳光,机器人也可以通过三种方式与其所在的环境交互:

  1. 状态(State):是任意一个静态时刻Agent能感知到的Environment情况,相当于某一时刻人类五官能感知到的一切。
  2. 行为(Action&#
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值