强化学习(RL)算法

本文介绍了强化学习的基础概念,包括环境、主体、状态、行动和收益,强调了其试错学习和延迟回报的特点。此外,还概述了强化学习的两大算法类别:基于值的算法和基于策略的算法,特别是Policy Gradient和Actor-Critic框架。
摘要由CSDN通过智能技术生成

​​​​​目录


前言

由于目前正跟着老师学习深度学习。为了能更好的梳理知识点,也为了与大家分享一下我对深度学习的理解,所以有了写文章的想法。


一、什么是强化学习?

强化学习: Reinforcement learning。它是机器学习的一个领域,不同于机器学习的是,强化学习更强调与环境交互,然后通过计算最大收益获得对应的最优的动作进行行动。强化学习还有一个特点,它是一个序列预测问题,也就是他是为了找出最优的一系列动作。而且因为每一个state需要在前一个action做出后才能得到,所以时间在强化学习中有很重要的意义。每一个action也会影响后边的决策

二、强化学习的基本元素

在强化学习中,环境(environment),主体(agent),状态(state),行动(action)和收益(reward)是我们经常会遇到,且必须掌握的概念。为了方便大家更好的理解它们,下边我以一款我自己写的小游戏为例来解释他们。

1.环境Environment

环境是一个外部系统,也就是我们所能看到的那个系统。用游戏来说就是屏幕(除去人物)。

 2.主体Agent

主体是我们自己添加到环境中的系统。它是用来与环境交互,感知到环境的状态,然后基于这个状态做出一定的行动,从而改变环境的状态。在游戏中,他就是人物可莉,可莉经过目前屏幕的状态,做出一个动作(上下左右移动,甚至扔出炸弹),从而改变屏幕的状态。

3.状态State

状态是当前环境的一个时间切片。可以理解为,在时间维度上,环境就是由无数个不同时刻的状态组成的。在游戏中,它就是一张照片。如以上截图就为一个状态。

 4.行动Action

行动是指主体做出的动作。在游戏中就是可莉上下左右移动或者扔炸弹。

5.收益Reward

收益是指环境对

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值