1、强化学习笔记-基本概念

最新推荐文章于 2024-09-27 13:30:27 发布

qq_35684558

最新推荐文章于 2024-09-27 13:30:27 发布

阅读量27

点赞数

分类专栏：强化学习文章标签：笔记

本文链接：https://blog.csdn.net/qq_35684558/article/details/132125360

版权

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、基本概念

Return：

我们希望return越大越好

动作价值函数：与具体的策略π有关

最优动作价值函数：

能够去掉动作价值函数中的π：使用最好的策略π，使Qπ最大化

意义：Q*可以用来评价当前状态下不同动作的好坏

状态价值函数：

意义：评价当前状态好坏，比如下围棋根据棋盘来判断输赢情况

总结：

强化学习的目标：学习策略π或者Q*函数

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_35684558

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

深度强化学习基本概念-王树森课程笔记

weixin_44005728的博客

05-11

1184

深度强化学习基本概念-王树森课程笔记

《David Silver强化学习笔记》第一课 1-introduction .pdf

07-15

以上内容涵盖了强化学习中的基本概念和关键知识点，如智能体、环境、状态、奖励、决策过程、马尔可夫性质等。通过这些概念的学习和理解，可以深入掌握强化学习的基本理论和方法，并将之应用到不同的实际问题中去。

参与评论您还未登录，请先登录后发表或查看评论

强化学习笔记2--基本概念

qq_41537299的博客

10-29

108

基本概念 链接: link.

强化学习笔记-强化学习概述

weixin_49897963的博客

03-07

1015

强化学习是机器学习的一种，它通过与环境不断地交互，借助环境的反馈来调整自己的行为，使得累积回报最大。强化学习要解决的就是决策类问题，即求取当前状态下最优行为或行为概率。 强化学习包括智能体和环境两大对象，智能体是算法本身，环境是与智能体交互的外部。智能体通过行为a作用于环境，环境反馈给智能体改变前后的状态s和s‘，以及回报r。

【强化学习-01】强化学习基本概念

HsinglukLiu的博客

01-26

2670

强化学习基本概念

机器学习笔记--机器学习基本概念（全面总结，通俗易懂）

qq_44815135的博客

01-22

3300

什么是机器学习？本文主要介绍了机器学习中的常见概念，包括监督学习和无监督学习、半监督学习、弱监督学习、强化学习、欠拟合和过拟合、损失和优化的概念以及常用的激活函数等。

强化学习笔记3---policy gradient基本概念

qq_41537299的博客

10-18

388

本文章为学习李宏毅老师视频的学习笔记，视频链接调整theta，就可以调整选择trajectory的概率只能求出该路径奖励的期望值，方法是穷举所有路径并将奖励值加和这么复杂的推导，咱们就是说瞟一眼就可以了，就是求reward的梯度 theta更新过程，η\etaη 是学习率 sample的概念。R(τn)R(\tau ^n)R(τn) 是整场游戏采取aaa的奖励为了增加sample的正确率，可以将某些reward改为负。增添加baseline来实现，即bbb。最简单的方式即b=E(R(.

强化学习笔记1 基本概念

tianming1992的专栏

09-11

105

1.强化学习方法汇总分类一：无模型方法 Model-Free RL Q-Learning Sarsa Policy Gradients 通过环境反馈来决定行动 Model-Based RL 分类二基于概率可用于连续动作 Policy Gradients 基于价值方法分类三回合更新单步更新分类四在线学习 sarsa 离线学习 Q-Learning DQN 2.技能前提 Open...

李宏毅深度强化学习导论——基本概念

日积月累，天道酬勤

03-21

1067

李宏毅强化学习简介

【强化学习的数学原理-赵世钰】课程笔记（一）基本概念

qq_64671439的博客

12-30

2561

在B站上学习强化学习的课程笔记，笔记非常详细清晰，会持续更新

强化学习的数学原理学习笔记 - Actor-Critic

Green Lv的博客

01-08

1571

强化学习的数学原理学习笔记： Actor-Critic，包括对A2C、DPG等算法和重要性采样等概念的介绍。

吴恩达机器学习笔记-人工智能机器学习算法入门笔记

01-26

机器学习可以分为监督学习、无监督学习和强化学习等主要类型。【监督学习】监督学习是机器学习的一种，其中模型在已知输入和对应输出（标签）的训练数据集上学习。在这个过程中，模型尝试找出输入和输出之间的...

强化学习笔记和学习材料

01-02

1. 强化学习的基本概念：强化学习的四个基本元素包括智能体（Agent）、环境（Environment）、动作（Action）和状态（State）。智能体在特定状态下执行动作，环境则根据动作返回新的状态和奖励。 2. 奖励函数...

AIGC学习笔记—minimind详解+训练+推理

最新发布

m0_56569131的博客

09-27

119

【算法笔记】二分查找红蓝染色法

weixin_51325964的博客

09-23

849

一个菜鸟的算法笔记

Maya学习笔记：项目设置和快捷键

吴梓穆的博客

09-24

329

快速空格：切换三视图，鼠标放到对应的视图上，在快速按空格，可以切到对应视图。在项目窗口里，选择要生成的子文件夹（保持默认即可），然后点下边的接受。文件/最下边选择最近的项目，在右侧展开菜单里选择刚创建的目录。只后场景会被默认保存在这个文件夹下的scenes里。F：先点击一个物体，在按F，选中的物体居中显示。主键盘5：平滑着色显示模型（默认的方式）选择一个文件夹，然后选择创建默认工作区。alt+滚路或右键拖动：缩放视角。alt+左键拖动：旋转视角。alt+中键拖动：移动视角。A：场景所有物体居中显示。

《动手学深度学习》笔记2.1——神经网络从基础→进阶 (层和块 - 自定义块)

weixin_57972634的博客

09-24

1112

在本章中，我们将深入探索深度学习计算的关键组件，即模型构建、参数访问与初始化、设计自定义层和块、将模型读写到磁盘，以及利用GPU实现显著的加速。这些知识将使读者从深度学习“基础用户”变为“高级用户”。虽然本章不介绍任何新的模型或数据集，但后面的高级模型章节在很大程度上依赖于本章的知识。很多同学反馈道，本章的学习解开了前后章节的很多困惑，对打牢基础非常有帮助

qt-C++笔记之作用等同的宏和关键字

小勇博客

09-22

592

的引入主要是为了提高代码的可读性和一致性，避免关键字冲，特别是在那些。可能与其他语义冲突的环境中（如某些编译器或代码分析工具可能不识别。被推荐使用，尽管在实际的 Qt 源代码中。是 Qt 中用于发射信号的宏，其作用等同于。为什么使用 Q_EMIT 而不是 emit?在 Qt 的官方文档和推荐的编码风格中，

智能指针学习笔记

weixin_42130300的博客

09-24

288

1. 共享指针总体的使用来说是不线程安全的（构造和析构时才会改变引用计数，但是在访问资源时是不安全的）。可以对引用计数改变时加锁，或者将+或-操作改变为原子操作。3. 不可以将shared_ptr转换为unique_ptr。unique_ptr可以转换为shared_ptr，通过std::move。1. 关于int，成员变量的引用计数必须是int*。不可以直接是int，不然没有引用计数的作用。2. 关于是否可以声明为静态成员。不可以，否则每一个相同类型的对象都共享该计数。需要通过weak_ptr进行解决。

强化学习笔记：伯克利CS285前10讲重点概览

"Berkeley CS285 强化学习笔记涵盖了强化学习的基础概念和重要算法，主要讨论了马尔可夫决策过程（Markov Decision Process, MDP）和部分可观测马尔可夫决策过程（Partially Observed Markov Decision Process, ...