[强化学习Tutorial] 1. 入门介绍

本文介绍了强化学习作为机器学习的一个分支,其应用场景包括智能控制和游戏AI。强化学习基于奖励的学习机制通过观察、行动、奖励和新观察来指导决策。在迷宫和机器人运动控制等例子中,设计合适的奖励函数是关键。文章还提到了强化学习在Dota 2和围棋等游戏中的应用,展示其强大的学习和协作能力。
摘要由CSDN通过智能技术生成

强化学习入门介绍

机器学习一般分为三类,监督学习,强化学习和无监督学习。强化学习的应用场景有智能控制(e.g. 如机械臂、机器人的动作控制)以及 AI打电动(i.e. 用强化学习打游戏并且超过人类水平)。强化学习不同于监督学习,他是一种基于reward的学习方式。强化学习的每个步长(time step)都是包含四样东西,首先是初始观测值(observation 1),基于observation 1所采取的动作(action),基于初始观测值以及所采取的动作得到一个reward,最后一个就是做完动作以后的新观测值(observation 2).
这里写图片描述这里写图片描述
以上两幅图片很好的描述了强化学习的学习方式,图中的agent就是黄色机器人,而迷宫就是environment,我们的目标就是让机器人学会在迷宫中吃到尽可能多的豆子。在每个time step,我们的observation 1就是迷宫中所处的位置以及怪物想对于机器人的位置,action就是你想走的方向(比如向前,向左,向右,或者向后),做完这个动作后你会得到一个奖励以及observation 2. 为了让吃尽可能多的豆子,你就需要在到达有豆子的位置给机器人一个高的奖励,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值