1-强化学习(RL)初印象

最新推荐文章于 2024-06-16 16:28:02 发布

愚昧之山绝望之谷开悟之坡

最新推荐文章于 2024-06-16 16:28:02 发布

阅读量109

点赞数

分类专栏：强化学习7日打卡文章标签：自然语言处理深度学习机器学习

本文链接：https://blog.csdn.net/qq_15821487/article/details/119991148

版权

强化学习7日打卡专栏收录该内容

3 篇文章 0 订阅

订阅专栏

在这里插入图片描述要不就是遗传（初始化），要不就是模仿人学习（教师模型），环境学习（强化学习）

和环境的交互学习，又分为已知环境和未知环境的学习

学习路线，论文复现后就是前沿论文的追踪阅读

经典教材
在这里插入图片描述
就是跟环境的交互而已

两部分，三要素。state(全局状态)和observation（局部）在多智能体中

Flappy bird

乒乓球

有奖励延迟

走迷宫 cess=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5oSa5pin5LmL5bGx57ud5pyb5LmL6LC35byA5oKf5LmL5Z2h,size_15,color_FFFFFF,t_70,g_se,x_16)

运动与平衡
在这里插入图片描述
个性化推荐

股票市场

交通治理

强化学习应用路线

关系，和deep learning有交集

对比，监督，任务驱动（回归分类），无监督，数据驱动（数据的区别和联系），强化学习（环境驱动，算法要适配环境）

在这里插入图片描述
强化学习直接跨越了，认知到决策的过程，直接到决策

监督学习，认知
强化学习，决策
在这里插入图片描述
围棋，星际争霸，DOTA2

比人类勤奋

探索和利用

会探索也要会学习，两种学习策略
基于价值和基于策略

两种策略的算法方案

基于模型和无模型

强化学习，主流算法库，可以做比对

仿真平台
在这里插入图片描述
交互接口

PARL介绍

快速搭建分布式并行

对比试验，并行策略

强化学习总结

愚昧之山绝望之谷开悟之坡

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
1-强化学习(RL)初印象

要不就是遗传（初始化），要不就是模仿人学习（教师模型），环境学习（强化学习）和环境的交互学习，又分为已知环境和未知环境的学习学习路线，论文复现后就是前沿论文的追踪阅读经典教材就是跟环境的交互而已两部分，三要素。state(全局状态)和observation（局部）在多智能体中Flappy bird乒乓球有奖励延迟走迷宫运动与平衡个性化推荐股票市场交通治理强化学习应用路线关系，和deep learning有交集对比，监督，任务驱动（回归分类），无监
复制链接

扫一扫