强化学习浅谈

本文作者分享了自己重新学习强化学习的心得体会,强调了强化学习与有监督和无监督学习的不同之处,如无监督反馈、延迟奖励、序列数据处理等特性。文章围绕agent-environment交互机制和强化学习中的马尔科夫过程展开,讨论了策略(确定性与非确定性)及马尔科夫性质在状态转移中的作用。
摘要由CSDN通过智能技术生成

一直对强化学习很感兴趣,毕业前那会也尝试着去学习,但因为当时感觉强化学习的公式晦涩难懂,没能坚持下去。最近因工作需要,又重新开始啃强化学习的知识,发现有了新的体会,故在此记录一下,以便以后随时翻看查阅。
  机器学习包含了三大分支,有监督学习(或半监督)、无监督学习和强化学习。同前两者相比,强化学习具有如下特点,
  (1) 没有“supervisor”,只有“reward”信号;
  (2) 反馈信号有时间延迟;
  (3) 处理的是序列数据,而不是独立同分布数据;
  (4) 学习体的“action”影响其后续的数据输入。

agent-environment交互机制

强化学习任务包含了两大主体,Agent和Environment,这里的Agent就是学习者,同时也是决策者。学习者通过和环境进行交互来实现目标,交互过程的框图表示如下,


  从图中可以看出,这是一个序列化过程,在时刻t,学习体基于当前状态 S i S_{i} Si发出动作 A t A_{t} At,环境做出回应,生成新的状态 S t + 1 S_{t+1} St+1和对应的回报 R t + 1 R_{t+1} R
  • 3
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值