人工智能教程 - 专业选修课程4.3.5 - 强化学习 1.强化学习简介,三要素,历史记录

强化学习是一种无监督的学习方式,基于奖励信号进行决策,而非明确的正确或错误反馈。它关注时间序列的动态决策过程,其中智能体的行为影响环境并接收延迟的奖励。目标是通过最大化累积奖励来优化长期结果。奖励可以是正或负,智能体通过观察和奖励函数来选择行动,形成一个与环境交互的循环系统。历史记录是所有观测、动作和奖励的序列,对下一步决策至关重要。
摘要由CSDN通过智能技术生成

强化学习简介

Reinforcement learning

在这里插入图片描述
强化学习是多学科交叉的学科

  • 机器学习
  • 最优化控制
  • 奖励系统
  • 条件作用以及条件反射实验
  • 离散数学
  • 博弈论效用理论和有限理论

强化学习和其他机器学习范式有什么区别?

What makes reinforcement learning different from other machine learning paradigms?

1.强化学习是无监督的,仅仅是奖励信号!only a reward signal 它并不知道什么是正确或者错误的决策,只是依照在做出行动后反馈的奖惩后得到的结果。

2.反馈是有延迟的,不是实时的马上得到结果

Feedback is delayed, not instantaneous

3.时间是关键(数据是序列化的,所以研究的是一个时间序列的动态连续性决策过程

Time really matters (sequential, non i.i.d data)

4.智能体的行为会影响后续的数据,行为会反过来影响环境。也就是说输入会随着行动改变,这是一种主动学习的过程

Agent’s actions affect the subsequent data it receives.

奖励 Rewards

  • A reward R t R_t Rt is a scalar feedback signal
  • Indicates how well agent is do
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值