强化学习简介

最新推荐文章于 2024-01-03 21:12:01 发布

csdn_LYY

最新推荐文章于 2024-01-03 21:12:01 发布

阅读量1.3k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CSDN_LYY/article/details/103817829

版权

本文介绍了强化学习的基础，包括奖励假说、片段性任务与连续性任务的区别，以及探索与开发的权衡。同时，文章阐述了强化学习的三种方法：基于价值、基于策略和基于模型，并提到了深度强化学习的应用，如深度Q网络（DQN）。

摘要由CSDN通过智能技术生成

强化学习是机器想里面非常重要的一个派别。智能体agent会不断执行一些操作，通过结果来学习，在不同的环境中分别应该采取怎样的行动。

一些常见的算法如：
Q学习，深度Q网络 (DQN) ，策略梯度 (Policy Gradients) ，演员-评论家 (Actor-Critic) ，以及近端策略优化 (PPO)等。

奖励假说为根基

问题来了，目标为什么是预期累积奖励最大化？

因为，强化学习原本就是建立在奖励假说的基础之上。想表现好，就要多拿奖励。

每一个时间步 (time step) 的累积奖励都可以表示为：

在这里插入图片描述

或者
在这里插入图片描述
不过，我们没有办法把奖励直接相加。因为游戏里，越接近游戏开始处的奖励，就越容易获得；而随着游戏的进行，后面的奖励就没有那么容易拿到了。

把智能体想成一只小老鼠，对手是只猫。它的目标就是在被猫吃掉之前，吃到最多的奶酪。
在这里插入图片描述

就像图中，离老鼠最近的奶酪很容易吃，而从猫眼皮底下顺奶酪就难了。离猫越近，就越危险。结

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄10年

312
原创

236
点赞

618
收藏

37
粉丝

关注

私信

热门文章

分类专栏

工具 6篇
leetcode 1篇
经验 2篇
无线通信 2篇
人工智能 1篇
mathtype 1篇
blog 3篇
C++ 105篇
汇编 17篇
随想 5篇
数据结构 4篇
算法 3篇
linux 24篇
database 44篇
计算机组成原理
计算机网络 1篇
操作系统 10篇
Hadoop
Hbase 1篇
Docker 8篇
机器学习 69篇
WEKA 3篇
TeX 18篇
LabVIEW
matlab 19篇

最新评论

latex希腊字母斜体变正体
baidu_34343905: 牛，一句话解决问题，别的攻略还要引入宏包甚至还要收费才能看教程
概率和似然，终于懂了
天心481: 求似然的目的就是估计参数θ，如果这个θ就是真实的θ，那么似然和概率一定是相等的
谈google搜索引擎的使用
十三月的天: 所以谷歌搜索引擎怎么用啊
texstudio出现Could not start the command: pdflatex.exe -synctex=1 -interaction=nonstopmode解决方法
weixin_50519490: 还是打不开，右侧是黑屏，显示pdf格式不正确
[科普]原码，反码，补码由来
做而论道_CS: 实际上，任意负数（－X）的补码，都是：0 － X。你用二进制简单算一下，立刻就能得到结果。（－128 的 8 位补码，也就是这样求出来的。）同理，任意正数（＋X）的补码，也都是：0 ＋ X。这还用算？ 0 ＋ X，不就是 X 吗？即，正数的补码，就是 X 本身！求补码，就是这么简单。符号位原码反码取反加一符号位不变模... 这些，不过是 “拿来鞋拔当如意” 而已。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。