人工智能教程 - 专业选修课程4.3.5 - 强化学习 1.强化学习简介,三要素,历史记录

最新推荐文章于 2023-04-06 14:46:43 发布

KuFun元宇宙

最新推荐文章于 2023-04-06 14:46:43 发布

阅读量650

点赞数

分类专栏：专业选修课程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fsdaewrq/article/details/104571301

版权

强化学习是一种无监督的学习方式，基于奖励信号进行决策，而非明确的正确或错误反馈。它关注时间序列的动态决策过程，其中智能体的行为影响环境并接收延迟的奖励。目标是通过最大化累积奖励来优化长期结果。奖励可以是正或负，智能体通过观察和奖励函数来选择行动，形成一个与环境交互的循环系统。历史记录是所有观测、动作和奖励的序列，对下一步决策至关重要。

摘要由CSDN通过智能技术生成

强化学习简介

Reinforcement learning

在这里插入图片描述
强化学习是多学科交叉的学科

机器学习
最优化控制
奖励系统
条件作用以及条件反射实验
离散数学
博弈论效用理论和有限理论

强化学习和其他机器学习范式有什么区别？

What makes reinforcement learning different from other machine learning paradigms?

1.强化学习是无监督的，仅仅是奖励信号！only a reward signal 它并不知道什么是正确或者错误的决策，只是依照在做出行动后反馈的奖惩后得到的结果。

2.反馈是有延迟的，不是实时的马上得到结果

Feedback is delayed, not instantaneous

3.时间是关键（数据是序列化的，所以研究的是一个时间序列的动态连续性决策过程）

Time really matters (sequential, non i.i.d data)

4.智能体的行为会影响后续的数据，行为会反过来影响环境。也就是说输入会随着行动改变，这是一种主动学习的过程

Agent’s actions affect the subsequent data it receives.

奖励 Rewards

A reward $R_t$ is a scalar feedback signal
Indicates how well agent is do

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。