强化学习简介

本文介绍了强化学习的基础,包括奖励假说、片段性任务与连续性任务的区别,以及探索与开发的权衡。同时,文章阐述了强化学习的三种方法:基于价值、基于策略和基于模型,并提到了深度强化学习的应用,如深度Q网络(DQN)。
摘要由CSDN通过智能技术生成

强化学习是机器想里面非常重要的一个派别。智能体agent会不断执行一些操作,通过结果来学习,在不同的环境中分别应该采取怎样的行动。

一些常见的算法如:
Q学习,深度Q网络 (DQN) ,策略梯度 (Policy Gradients) ,演员-评论家 (Actor-Critic) ,以及近端策略优化 (PPO)等。

奖励假说为根基

问题来了,目标为什么是预期累积奖励最大化?

因为,强化学习原本就是建立在奖励假说的基础之上。想表现好,就要多拿奖励。

每一个时间步 (time step) 的累积奖励都可以表示为:

在这里插入图片描述

或者
在这里插入图片描述
不过,我们没有办法把奖励直接相加。因为游戏里,越接近游戏开始处的奖励,就越容易获得;而随着游戏的进行,后面的奖励就没有那么容易拿到了。

把智能体想成一只小老鼠,对手是只猫。它的目标就是在被猫吃掉之前,吃到最多的奶酪。
在这里插入图片描述

就像图中,离老鼠最近的奶酪很容易吃,而从猫眼皮底下顺奶酪就难了。离猫越近,就越危险。结

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值