强化学习（RL）算法

一生物

已于 2022-10-28 18:01:45 修改

阅读量1.4k

点赞数 2

分类专栏：强化学习 python 机器学习文章标签：算法 python 机器学习深度学习

于 2022-10-28 18:01:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_63943951/article/details/127573759

版权

本文介绍了强化学习的基础概念，包括环境、主体、状态、行动和收益，强调了其试错学习和延迟回报的特点。此外，还概述了强化学习的两大算法类别：基于值的算法和基于策略的算法，特别是Policy Gradient和Actor-Critic框架。

摘要由CSDN通过智能技术生成

目录

一、什么是强化学习？

二、强化学习的基本元素

1.环境Environment

三，RL算法的特点

1，试错学习

2，延迟回报

四，RL算法的分类

1，基于值的算法

1），状态价值函数V(s).

2）行为价值函数

2，基于策略的算法

Policy Gradient

3.Actor-Critic 框架

Based Actor-Critic

前言

由于目前正跟着老师学习深度学习。为了能更好的梳理知识点，也为了与大家分享一下我对深度学习的理解，所以有了写文章的想法。

一、什么是强化学习？

强化学习： Reinforcement learning。它是机器学习的一个领域，不同于机器学习的是，强化学习更强调与环境交互，然后通过计算最大收益获得对应的最优的动作进行行动。强化学习还有一个特点，它是一个序列预测问题，也就是他是为了找出最优的一系列动作。而且因为每一个state需要在前一个action做出后才能得到，所以时间在强化学习中有很重要的意义。每一个action也会影响后边的决策

二、强化学习的基本元素

在强化学习中，环境（environment），主体（agent），状态（state），行动（action）和收益（reward）是我们经常会遇到，且必须掌握的概念。为了方便大家更好的理解它们，下边我以一款我自己写的小游戏为例来解释他们。

1.环境Environment

环境是一个外部系统，也就是我们所能看到的那个系统。用游戏来说就是屏幕（除去人物）。

2.主体Agent

主体是我们自己添加到环境中的系统。它是用来与环境交互，感知到环境的状态，然后基于这个状态做出一定的行动，从而改变环境的状态。在游戏中，他就是人物可莉，可莉经过目前屏幕的状态，做出一个动作（上下左右移动，甚至扔出炸弹），从而改变屏幕的状态。

3.状态State

状态是当前环境的一个时间切片。可以理解为，在时间维度上，环境就是由无数个不同时刻的状态组成的。在游戏中，它就是一张照片。如以上截图就为一个状态。

4.行动Action

行动是指主体做出的动作。在游戏中就是可莉上下左右移动或者扔炸弹。

5.收益Reward

收益是指环境对

最低0.47元/天解锁文章

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
强化学习（RL）算法

强化学习： Reinforcement learning。它是机器学习的一个领域，不同于机器学习的是，强化学习更强调与环境交互，然后通过计算最大收益获得对应的最优的动作进行行动。强化学习还有一个特点，它是一个序列预测问题，也就是他是为了找出最优的一系列动作。而且因为每一个state需要在前一个action做出后才能得到，所以时间在强化学习中有很重要的意义。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。