【无标题】

最新推荐文章于 2024-08-22 07:51:42 发布

爱学习的小耿

最新推荐文章于 2024-08-22 07:51:42 发布

阅读量199

点赞数

文章标签：人工智能算法学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42705158/article/details/129020576

版权

本文介绍了强化学习的基本概念，包括它是机器学习中的一种学习方式，通过不断尝试和错误学习。文章详细阐述了概率分布、策略（π）、奖励（R）、状态转移、动作价值函数（Q(s,a)）和最优状态价值函数（V(s)），以及强化学习的整体流程。

摘要由CSDN通过智能技术生成

强化学习（RL）系列文章

第一章强化学习的概念学习

提示：以下是本篇文章正文内容，下面案例可供参考

一、强化学习是什么？

强化学习（Reinforcement Learning, RL）是机器学习中的一个领域，又称再励学习、评价学习或增强学习。强化学习也是一类机器学习算法, 而强化学习是介于监督学习和非监督学习的另外一种学习方式，是让计算机实现从一开始什么都不懂，脑袋里没有一点想法，通过不断地尝试，从错误中学习，最后找到规律，学会达到目的的方法。

二、预备知识

1.概率分布

下图为一个连续分布的概率分布图，它的概率分布函数p(x):

在这里插入图片描述

2.基础定理：

1.连续分布的概率分布：
在这里插入图片描述
2.离散分布的概率分布：

3.数学期望

1.连续的概率分布的数学期望
在这里插入图片描述
2.离散的概率分布的数学期望

三.基本名词概念

1.state and action

state(S):如下图所示的场景
Agent:执行动作的个体或者对象
Action a:agent的动作描述
以下均为示意图

2.policy π（条件概率）

policy:策略，It is the probability of taking action A= a given state s
在这里插入图片描述

3.reward R 奖励

以上图为例，吃到一个金币 R=+1,Win the game: R = +10000,直观来说，就是希望什么的结果，就可以给予该方面更多的奖励

4.state transition 状态转移

指的是在状态s下做出动作a之后得到的新状态s’，新状态s’的概率为：
在这里插入图片描述

5.agent environment interaction 对象对环境的影响

有下图表示流程：
在这里插入图片描述

6.流程初步表示

新状态：S’ :基于状态S=s,Action A=a后的新状态

在这里插入图片描述

7.Return 未来的奖励之和

在这里插入图片描述

8.Discounted return

由于未来的奖励和现在的奖励权重不同，因此需要系数加权
在这里插入图片描述

9.Action-Value Function Q(s,a) 动作价值函数

基于策略π的动作价值函数：
在这里插入图片描述

10. Optimal action-value function 最优动作价值函数

用于评价在策略π下的动作a的优劣
在这里插入图片描述

11.State-Value Function V(s) 状态价值函数，用于评价当前局势

在这里插入图片描述

12.整体流程

在这里插入图片描述

总结

提示：这里对文章进行总结：
以上便是强化学习reinforcement learning的基本概念

爱学习的小耿

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【无标题】

以上便是强化学习reinforcement learning的基本概念。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。