要不就是遗传(初始化),要不就是模仿人学习(教师模型),环境学习(强化学习)
和环境的交互学习,又分为已知环境和未知环境的学习
学习路线,论文复现后就是前沿论文的追踪阅读
经典教材
就是跟环境的交互而已
两部分,三要素。state(全局状态)和observation(局部)在多智能体中
Flappy bird
乒乓球
有奖励延迟
走迷宫
运动与平衡
个性化推荐
股票市场
交通治理
强化学习应用路线
关系,和deep learning有交集
对比,监督,任务驱动(回归分类),无监督,数据驱动(数据的区别和联系),强化学习(环境驱动,算法要适配环境)
强化学习直接跨越了,认知到决策的过程,直接到决策
监督学习,认知
强化学习,决策
围棋,星际争霸,DOTA2
比人类勤奋
探索和利用
会探索也要会学习,两种学习策略
基于价值和基于策略
两种策略的算法方案
基于模型和无模型
强化学习,主流算法库,可以做比对
仿真平台
交互接口
PARL介绍
快速搭建分布式并行
对比试验,并行策略
强化学习总结