【深度学习李宏毅】【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (一) – 增強式學習跟機器學習一樣都是三個步驟

最新推荐文章于 2024-08-08 17:45:51 发布

接深度学习联系丝信

最新推荐文章于 2024-08-08 17:45:51 发布

阅读量367

点赞数 6

分类专栏：【杂学】文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43154149/article/details/140425966

版权

【杂学】专栏收录该内容

21 篇文章 0 订阅

订阅专栏

文章目录

Outline

from视频: https://www.youtube.com/watch?v=XWukX-ayIrs

Outline

在这里插入图片描述

What is RL?(Three steps in ML)

在这里插入图片描述

机器学习三步骤

在这里插入图片描述

Step1：Function with Unknown

采取sample，更多随机性
在这里插入图片描述

Step2： Define “Loss”

在这里插入图片描述

Step3：Optimization

在这里插入图片描述

Policy Gradient

在这里插入图片描述

How to control your actor

控制 Actor的行为？
在这里插入图片描述

增加An控制程度

在这里插入图片描述

Version 0【短视的】【范例程式】

在这里插入图片描述

在这里插入图片描述

Version 1， 2【评估之后的事情，距离衰减系数】

在这里插入图片描述
添加距离衰减系数

在这里插入图片描述

Version3 【标准化】

在这里插入图片描述

具体操作

每一次 actor 更新，都需要重新收集资料！【非常花时间！】

在这里插入图片描述

在这里插入图片描述

On-policy v.s. Off-policy【Off-policy的优势在于：收集1次资料，更新参数多次，PPO？】

在这里插入图片描述

在这里插入图片描述

Exploration【增加随机性】

在这里插入图片描述

DeepMind - PPO

在这里插入图片描述

OpenAI - PPO

在这里插入图片描述

接深度学习联系丝信

关注

6
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【深度学习李宏毅】【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (一) – 增強式學習跟機器學習一樣都是三個步驟

from视频: https://www.youtube.com/watch?
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。