1-强化学习(RL)初印象

在这里插入图片描述要不就是遗传(初始化),要不就是模仿人学习(教师模型),环境学习(强化学习)
在这里插入图片描述
和环境的交互学习,又分为已知环境和未知环境的学习
在这里插入图片描述
学习路线,论文复现后就是前沿论文的追踪阅读
在这里插入图片描述
经典教材
在这里插入图片描述
就是跟环境的交互而已
在这里插入图片描述
两部分,三要素。state(全局状态)和observation(局部)在多智能体中
在这里插入图片描述
Flappy bird
在这里插入图片描述
乒乓球
在这里插入图片描述
有奖励延迟
在这里插入图片描述
走迷宫cess=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5oSa5pin5LmL5bGx57ud5pyb5LmL6LC35byA5oKf5LmL5Z2h,size_15,color_FFFFFF,t_70,g_se,x_16)

运动与平衡
在这里插入图片描述
个性化推荐
在这里插入图片描述
股票市场
在这里插入图片描述
交通治理
在这里插入图片描述
强化学习应用路线
在这里插入图片描述
关系,和deep learning有交集
在这里插入图片描述
对比,监督,任务驱动(回归分类),无监督,数据驱动(数据的区别和联系),强化学习(环境驱动,算法要适配环境)

在这里插入图片描述
强化学习直接跨越了,认知到决策的过程,直接到决策

监督学习,认知
强化学习,决策
在这里插入图片描述
围棋,星际争霸,DOTA2
在这里插入图片描述
比人类勤奋
在这里插入图片描述
探索和利用
在这里插入图片描述
会探索也要会学习,两种学习策略
基于价值和基于策略
在这里插入图片描述
两种策略的算法方案
在这里插入图片描述
基于模型和无模型
在这里插入图片描述
强化学习,主流算法库,可以做比对
在这里插入图片描述
仿真平台
在这里插入图片描述
交互接口
在这里插入图片描述
PARL介绍
在这里插入图片描述
快速搭建分布式并行
在这里插入图片描述
对比试验,并行策略
在这里插入图片描述
强化学习总结
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值