强化学习基础内容（一)

乔翔

已于 2024-03-14 16:42:17 修改

阅读量190

点赞数 1

文章标签：算法机器学习

于 2024-03-14 16:25:09 首次发布

本文链接：https://blog.csdn.net/qq_52848974/article/details/136657285

版权

本文介绍了强化学习的基本概念，包括模型的奖励与惩罚机制、火星探测器中的应用、回报计算、策略函数和状态动作值函数Q(s,a)的概念，以及贝尔曼方程在动态规划和递归中的运用。

摘要由CSDN通过智能技术生成

一、什么是强化学习

对模型的输出给出奖励或惩罚，不给出正确输出。

二、火星探测器实例

找奖励高的

三、回报

用奖励和折扣系数计算回报

引入折扣因子：一般为0.9或0.99等小于1的数。

不同位置出发向左向右计算奖励，得到第三个表格（在不同位置如何选择）。

四、策略函数

我们需要一个策略函数Π（s）告诉我们在这种状态下如何行动。

五、状态动作值函数（state action value function）

状态动作值函数为Q（s，a）。他返回在s状态下执行a操作后经过最优行为得到的回报（return）。也就是在s状态下应该如何操作并会得到什么结果。

同时可得策略函数Π（s）=a。

六、贝尔曼方程

计算示例

贝尔曼方程用运动态规划和递归思想

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

乔翔

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

PyTorch强化学习实战（1）——强化学习环境配置与PyTorch基础

盼小辉丶的博客

05-29

11万+

工欲善其事，必先利其器。为了更专注于学习强化学习的思想，而不必关注其底层的计算细节，我们首先搭建相关强化学习环境，包括 PyTorch 和 Gym，其中 PyTorch 是我们将要使用的主要深度学习框架，Gym 则提供了用于各种强化学习模拟和任务的环境。除此之外，本文还介绍了一些 PyTorch 的基础知识，以及 Gym 环境的使用方法，为之后的强化学习实战奠定基础。

强化学习（一）- 强化学习基础

bymaymay的博客

02-15

4182

定义 强化学习（Reinforcement Learning，RL）是智能体（Agent）为了最大化长期回报（Return）的期望，通过观察系统环境，不断试错（Trial-and-Error）进行学习的过程。从强化学习的定义可以看出，强化学习具有两个最主要的特征：通过不断试错来学习；追求长期回报的最大化。 强化学习的框架一般包含5个构成要素，包括：环境（Environment）；智能体（Agent）；观察（Observation）；行动（Action）；奖励（Reward）。强化学

参与评论您还未登录，请先登录后发表或查看评论

强化学习基础

喜欢打酱油的老鸟

01-06

3451

https://www.toutiao.com/a6641864763305361927/ 2019-01-02 19:47:27 内容目录：一、强化学习的成功二、概念和基础 2.1设计强化学习系统 2.2人工智能环境类型三、问题公式化 3.1数学公式 3.2马尔可夫决策过程 3.3价值函数四、RL训练术语 4.1基于模型与无模型 4.2On-policy与...

强化学习基础理论

baidu_41871794的博客

10-16

3131

知识结构定义 强化学习（Reinforcement learning），与监督学习，无监督学习是类似的，是一种统称的学习方式。它主要利用智能体与环境进行交互，从而学习到能获得良好结果的策略。与有监督学习不同，强化学习的动作并没有明确的标注信息，只有来自环境的反馈的奖励信息，它通常具有一定的滞后性，用于反映动作的“好与坏”。参考资料： https://zh.wikipedia.org/wiki/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0 基础理论基本概念 4

强化学习（一）模型基础

小白学视觉

05-10

1490

点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达一、前言从今天开始整理强化学习领域的知识，主要参考的资料是Sutton的强化学习书和UCL强化学习的课程。这个系列大概准备写10到20篇，希望写完后自己的强化学习碎片化知识可以得到融会贯通，也希望可以帮到更多的人，毕竟目前系统的讲解强化学习的中文资料不太多。第一篇会从强化学习的基本概念讲起，对应Sutt...

Python强化学习实战及其AI原理详解

weixin_43178406的博客

11-09

3万+

1. 引言 2. 时间旅行和平行宇宙 3. 强化学习 4. 策略梯度算法 5. 代码案例 6. 推荐阅读与粉丝福利

强化学习极简入门：通俗理解MDP、DP MC TC和Q学习、策略梯度、PPO

热门推荐

结构之法算法之道

02-10

5万+

强化学习里面的概念、公式，相比ML/DL特别多，初学者刚学RL时，很容易被接连不断的概念、公式给绕晕，而且经常忘记概念与公式符号表达的一一对应(包括我自己在1.10日之前对好多满是概念/公式的RL书完全看不下去，如今都看得懂了，故如果读文本之前，你正在被RL各种公式困扰，相信看完这篇RL极简入门后就完全不一样了)。

强化学习之最基础篇

KeyCoder的博客

10-28

2325

强化学习之最基础篇

强化学习Openai Gym基础环境搭建

丹丹的后花园

04-07

9338

Openai Gym基础环境搭建 Gym提供了一些基础的强化学习环境，并且集成了许多有意思的环境，下面我们来一起看下如何在你的电脑上搭建Gym的开发环境吧。 Gym的Github地址。 1. ReadMe解读 Gym 是一个开源 Python 库，通过提供标准 API 在强化学习算法和环境之间进行通信，以及符合该 API 的标准环境集，用于开发和比较强化学习算法。自发布以来，Gym 的 API 已成为强化学习领域的标准。 Gym的官方文档地址：https://www.gymlibrary.m

强化学习（一）：概述

夏栀的博客

02-29

6404

强化学习（一）：概述前言：最近，强化学习非常的火爆，不论在科研界还是工业界，强化学习一直作为一个新兴的领域，在计算机学科范畴内发挥重要的作用。强化学习（Reinforcement Learning），属于一种机器学习架构（范式）。我们知道机器学习一般分为监督和无监督，所谓监督即是否有外在的标准来约束样本，也就是所谓的标签；无监督则是没有标签的样本。强化学习之所以认为是机器学习的一种架构，是...

强化学习理论部分.pdf

08-20

标签“强化学习”指明了文件的主要内容，强化学习是机器学习的一个重要分支，它通过与环境的交互来学习最优策略，即如何在给定状态下做出行为选择以最大化累积奖励。从部分内容可见，笔记内容不仅涵盖了强化学习的...

强化学习课件.pdf

08-24

本课件的标题为“强化学习课件.pdf”，描述中提到内容涵盖了强化学习的基本问题、经典Q学习理论、深度Q学习理论，以及相关的程序讲解与训练方法。标签为“强化学习”，说明本课件专注于强化学习这一人工智能领域的...

Javascript算法——双指针法移除元素、数组去重、比较含退格字符、有序数组平方

最新发布

警警的博客

10-17

459

暴力求解法（两层for循环）,length单词拼写错误❌二次嵌套for的length设置。return位置❌ ,核心基础。双指针法（一层for循环）

【文档智能】文本文字识别、公式识别、表格文字识别核心算法及思路及实践-DBNet、CRNN、TrOCR

余俊晖，NLP炼丹师，目前专注自然语言处理领域研究。曾获得国内外自然语言处理算法竞赛TOP奖项近二十项。

10-13

1430

OCR技术作为文档智能解析链路中的核心组件之一，贯穿整个技术链路，包括：文字识别、表格文字识别、公式识别，参看下面这张架构图：前期介绍了很多关于文档智能解析相关核心技术及思路，本着连载的目的，本次迎来介绍整个链路中的最后一块拼图-OCR。本文简要介绍OCR常见落地的算法模型-DBNet、CRNN，并基于这两个模型，简单介绍文字识别在表格识别中参与的角色；并且额外介绍TrOCR这个端到端的模型，基于这个模型引入公式识别解析的思路及微调方法。

【算法】双指针

2303_80828380的博客

10-13

813

力扣oj题之双指针算法

C++中的vector介绍（常用函数）

zxybf_的博客

10-15

884

vector的文档介绍vector是序列容器，表示可以改变大小的数组。(constructor)构造函数声明接口说明vector()（重点）无参构造构造并初始化n个val（重点）拷贝构造使用迭代器进行初始化构造int main()//无参的构造//n个val的构造//拷贝构造//迭代器区间构造return 0;

在顺序结构和链式结构的线性表上实现顺序检索算法

m0_56332819的博客

10-13

329

在顺序结构和链式结构的线性表上实现顺序检索算法，C语言

Python 使用 Jarvis 算法或包装的凸包（Convex Hull using Jarvis’ Algorithm or Wrapping）

csdn_aspnet的专栏

10-14

1235

例如，当输入 (0, 3), (0, 0), (0, 1), (3, 0), (3, 3) 时，它产生 (0, 3) (0, 0) (3, 0) (3, 3) 的输出；当输入 (0, 3), (0, 1), (0, 0), (3, 0), (3, 3) 时，输出为 (0, 3) (0, 1) (0, 0) (3, 0) (3, 3)。下一个点被选为在逆时针方向上领先于所有其他点的点，即，如果对于任何其他点 r，我们有“orientation(p, q, r) = 逆时针”，则下一个点是 q。

力扣10.13

qq_40052678的博客

10-13

478

如果鸡蛋碎了，你就不能再次使用它。如果某枚鸡蛋扔下后没有摔碎，则可以在之后的操作中重复使用这枚鸡蛋。每次操作，你可以取一枚没有碎的鸡蛋并把它从任一楼层。，以此类推，因此只需要判断最后的层数是否超过建筑高即可。楼层或比它低的楼层落下的鸡蛋都不会碎。函数传入操作次数k，可以发现，最优情况一定先在。确切的值的最小操作次数是多少？的楼层落下的鸡蛋都会碎，从。枚相同的鸡蛋，和一栋从第。请你计算并返回要确定。

2020版《强化学习：基础》简介

本书全面探讨了强化学习这一领域的核心概念和技术，为读者提供了一个深入理解该领域的坚实基础。在第二版中，作者们更新了先前版本的内容，涵盖了最新的研究成果和技术进展，确保了读者能够紧跟强化学习的前沿发展...