【课程学习】强化学习基础

课程介绍

1、强化学习作为Google 全球搜索主流领域趋势,在近年来影响度关注度超过了计算机视觉和自然语言处理。

2、强化学习来源于心理学的行为主义理论,历史可追溯到上世纪60年代,近年来在控制领域,游戏领域得到了非常成功的应用。

3、其主要思维来自心理学领域行为注意理论,机器学习很多算法来自人的学习机制,人有很多学习机制,监督学习算法、非监督学习算法,强化学习就是其中一种。

4、并不是所有事情都有先例,问题需要去发现,这种情况下,无监督学习就发挥一定效果了,与环境进行交互,得到环境的反馈,做对了就可以把强化,决策方法进行确定。

5、如果做错了有惩罚,做对了有奖励。

7、强化学习不需要事先准备样本集,无监督学习和监督学习需要事先准备样本,可以通过试错积累经验从而修正策略。

8、强化学习作为智能体,如何把学习机制通过强化学习机制呈现,这就是强化学习算法。

9、强化学习通过与环境的交互,作为一类独立的算法,和其他的机器学习机制有差别,重要看它的独特性,这种学习的机制是通往未来通用智能高级智能的方案。

10、无监督学习、监督学习都需要大量数据, 在一定程度上和人的机制是有差别的。

11、而强化学习实际上是人类行为高级智能的模拟,人类的智能赋予机器,我们既要使用无监督和监督学习,也需要机器有自适应学习,学习的机制不需要别人去监督。

12、强化学习的应用: 早期可以做控制,后来深度学习的发展对强化学习的训练得到了非常的应用, 深度学习可以和强化学习有补充的方面, 蛋白质课程, ChatGPT , 新闻推荐,无人车,电商推荐领域都有广泛应用,尤其在游戏领域。

13、腾讯开悟平台,机器通过训练可能超过一般的玩家,则体现了深度学习的特点。

强化学习基本概念

1、强化学习是通过试错进行的。
2、强化学习不需要标记数据,只需要和环境交互。
3、成功应用在:推荐系统、机器人等会。

强化学习的特点

1、试错学习: 没有大量先例可以参照,监督学习和非监督学习都有样本可以参照,那么试错如何做,可以使用一些不成熟的策略,通过不成熟的策略和环境交互。
比如机器人抓取物体,握量就是控制量,抓对了,环境就有一个正反馈,我们就给机器人一个强化的信号,在某一状态下面如何采取行动主要通过策略行动。
训练智能体也就是训练策略,在什么情况下做什么事情能获得环境最大的回报。
2、延迟反馈: 和环境交互时对还是错,环境会给一个反馈,我们不一定很快能得到一个奖励,很可能这一局全部结束后才能知道前面的动作是否执行对了。

3、过程性学习: 强化学习通过不断和环境试错, 需要和环境、对手、可以在某一个棋盘的状态下面,走很多步,直到这一局完成得到胜负。这就是目标,下棋的目标就是赢过对方,不是一步能够完成的,并不是一步能训练很高的,每一个步骤都需要试错,通过环境的反馈不断修正它的策略。、

4、环节之间的行为相关性: 每一个环节的决策带有相关性,前面环节如果出错了,可能负面作用会传播下去,在过程中我们希望每一步都能获得比较好的决策,所以在训练策略时,不仅要关注每一个环节,还要从整个流程的角度获得最大的回报。

5、探索和利用的综合: 在训练的过程要注意探索和利用的平衡, 刚开始智能体不成熟,经常受到惩罚,这种情况下要加重探索,大幅度修改智能体的策略,这就会有很多算法;到后来智能体做的比较专业,就要逐步降低探索的比例,把学好的策略用起来。

例如,下围棋,在某一时刻有很多走法,就有很多行为,称为行为1、2、3, 从状态A执行了行为1后就到了状态A ,行为2就到了状态B ,得到的回报不一样。

最初智能体处于混沌状态,不会一开始就得到最好的回报, 在初始化智能体时,每一个行为都初始化0 &#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值