【无标题】

本文介绍了强化学习的基本概念,包括它是机器学习中的一种学习方式,通过不断尝试和错误学习。文章详细阐述了概率分布、策略(π)、奖励(R)、状态转移、动作价值函数(Q(s,a))和最优状态价值函数(V(s)),以及强化学习的整体流程。
摘要由CSDN通过智能技术生成

强化学习(RL)系列文章

第一章 强化学习的概念学习


提示:以下是本篇文章正文内容,下面案例可供参考

一、强化学习是什么?

强化学习(Reinforcement Learning, RL)是机器学习中的一个领域,又称再励学习、评价学习或增强学习。强化学习也是一类机器学习算法, 而强化学习是介于监督学习和非监督学习的另外一种学习方式,是让计算机实现从一开始什么都不懂,脑袋里没有一点想法,通过不断地尝试,从错误中学习,最后找到规律,学会达到目的的方法。

二、预备知识

1.概率分布

下图为一个连续分布的概率分布图,它的概率分布函数p(x):

在这里插入图片描述
在这里插入图片描述

2.基础定理:

1.连续分布的概率分布:
在这里插入图片描述
2.离散分布的概率分布:
在这里插入图片描述

3.数学期望

1.连续的概率分布的数学期望
在这里插入图片描述
2.离散的概率分布的数学期望
在这里插入图片描述

三.基本名词概念

1.state and action

state(S):如下图所示的场景
Agent:执行动作的个体或者对象
Action a:agent的动作描述
以下均为示意图

2.policy π(条件概率)

policy:策略,It is the probability of taking action A= a given state s
在这里插入图片描述

3.reward R 奖励

以上图为例,吃到一个金币 R=+1,Win the game: R = +10000,直观来说,就是希望什么的结果,就可以给予该方面更多的奖励

4.state transition 状态转移

指的是在状态s下做出动作a之后得到的新状态s’,新状态s’的概率为:
在这里插入图片描述

5.agent environment interaction 对象对环境的影响

有下图表示流程:
在这里插入图片描述
在这里插入图片描述

6.流程初步表示

新状态:S’ :基于状态S=s,Action A=a后的新状态

在这里插入图片描述

7.Return 未来的奖励之和

在这里插入图片描述

8.Discounted return

由于未来的奖励和现在的奖励权重不同,因此需要系数加权
在这里插入图片描述
在这里插入图片描述

9.Action-Value Function Q(s,a) 动作价值函数

基于策略π的动作价值函数:
在这里插入图片描述在这里插入图片描述

10. Optimal action-value function 最优动作价值函数

用于评价在策略π下的动作a的优劣
在这里插入图片描述

11.State-Value Function V(s) 状态价值函数,用于评价当前局势

在这里插入图片描述

12.整体流程

在这里插入图片描述

总结

提示:这里对文章进行总结:
以上便是强化学习reinforcement learning的基本概念

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值