Reinforcement Learning(一):introduction

A little bit probability theory

Random Variable

随机变量:未知;它的值取决于随机事件的结果。用大写字母表示随机变量,观察值用小写字母表示,注意,观察值是没有随机性的。

Probability Density Function (PDF)

PDF提供了随机变量的值与样本相等的相对可能性,比如下图的高斯分布以及离散分布:

满足以下性质:

Expectation


Terminologies 

以马里奥游戏为例子说明。

state and action

  • agent:智能体
  • state:当前状态
  • action:agent采取的行动

policy

是概率密度函数,是给定当前状态s下,采取行动a的概率。

reward

state transition

状态转移函数通常是未知的,由环境决定。

 agent environment interaction


 Randomness in Reinforcement Learning

Actions have randomness

State transitions have randomness


 Play the game using AI


 Rewards and Returns

Return

因此引入折扣回报:

 Randomness in Returns


Value Functions

Action-Value FunctionQ(s,a)

State-Value Function V(s)

Understanding the Value Functions 


Play games using reinforcement learning

How does AI control the agent?

两种方法:


OpenAI Gym

gym是一个开发和比较强化学习算法的工具包。https://gym.openai.com/

 


Summary


We are going to study…

强化学习是一种机器学习方法,它致力于教会智能体在一个动态环境中做出最优决策。在强化学习中,智能体通过不断与环境进行交互来学习,并且根据环境的反馈来调整自己的行为。 强化学习的一个核心概念是“奖励”,它是环境对智能体行为的评价。智能体的目标是通过选择能够最大化长期奖励累积的行为策略来学习。在学习的过程中,智能体通过试错和学习的方法逐步改进自己的决策策略。 强化学习涉及到很多基本元素,比如:状态、动作、策略和价值函数。状态是指代表环境的信息,动作是智能体可以执行的动作选择,策略是智能体根据当前状态选择动作的方法,价值函数是用来评估每个状态或动作的价值。这些元素相互作用,并通过学习算法来更新和改善,使得智能体能够做出更好的决策。 强化学习有很多不同的算法,其中最著名的是Q-learning和Deep Q-Network(DQN)。Q-learning是一种基于值函数的学习方法,它通过不断更新状态-动作对的价值来优化策略。而DQN则是在Q-learning的基础上引入了深度神经网络,使得智能体能够处理更复杂的环境和任务。 总之,强化学习是一种通过交互式学习来教会智能体做出最优决策的方法。它在许多领域有广泛的应用,比如人工智能、自动驾驶、游戏AI等。通过不断的试错和学习,智能体可以不断改进自己的行为策略,达到最优性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值