[强化学习-1] 强化学习概述

最新推荐文章于 2024-08-31 00:00:00 发布

华华不在

最新推荐文章于 2024-08-31 00:00:00 发布

阅读量99

点赞数

分类专栏：强化学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_43459731/article/details/134392813

版权

强化学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文详细介绍了机器学习的两种主要类型：监督学习（包括分类和回归模型）和无监督学习（如聚类和关联），以及强化学习的基本概念、交互过程和要素。强调了强化学习的自主探索和超越人类的能力，与监督学习进行了对比。

摘要由CSDN通过智能技术生成

1.两种类型的机器学习

1. 预测：a. 监督学习 p(x) -> p(y|x)

b. 无监督学习 p(x,y)

2. 决策：强化学习 S, A, P, R -> $\sum Reward$

1. 监督学习 (Supervised Learning)：

它从过去的数据中学习，并将学习的结果应用到当前的数据中，以预测未来的事件。

在这种情况下，输入和期望的输出数据都有助于预测未来事件。为了准确预测，将输入数据标记为正确答案。

监督学习分为：

1.分类模型：分类模型用于可以对输出变量进行分类，例如“是”或“否”、“通过”或“失败”。分类模型用于预测数据的类别。例如：文本分类，垃圾邮件检测，情绪分析等。例如：

分类模型进行的人脸表情识别

2. 回归模型：回归模型用于输出变量为实际值的问题，例如根据数据集预测楼宇能耗，输出的便是单一的数字。或预测价格等。它最常用于根据先前的观测数据来预测数值。例如：

线性回归(Linear Regression)模型进行的能耗预测（回归模型）

2.无监督学习 (Unsupervised Learning)

没有数据集中的数据、特征之间的关系，根据聚类或一定的模型得到数据之间的关系。没有标签 (label) 例如：

无监督学习分为：

聚类：聚类是将观察值聚成一个一个的组，每一个组都含有一个或者几个特征，‎聚类的目的在于‎‎把相似的东西聚在一起，并不关心这一类是什么‎‎。因此，一个聚类算法通常只需要知道‎‎如何计算相似度‎‎就可以开始工作了。经常用做异常值的检测。

关联：关联是反映一个事物与其他事物之间的相互依存性和关联性，是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。

3. 监督学习 VS 无监督学习

监督学习：

1. 目标明确

2. 需要带标签的训练数据

3. 效果容易评估

无监督学习：

1. 目标不明确

2. 不需要带标签训练数据

3. 效果很难评估

2. 强化学习 (Reinforcement Learning)

1.基本状态：

图一：强化学习示意图

1. 强化学习(Reinforcement Learning)

讨论的是一个智能体(Agent) 如何在一个复杂不确定的环境(Environment)里面去最大化它能获得的奖励(Reward)的问题。总言而止就是从交互中学习以实现目标。在强化学习过程中，agent 跟 environment 交互。

感知	O
状态	state
动作	action
转移状态	P
奖励	Reward

2.交互过程：

agent 在环境里面获取到state，agent 会利用这个state输出一个动作(action)。agent通过执行这个action，环境会相应地输出 agent下一个"state_",以及当前的这个action所获得的奖励。agent 的目的就是为了尽可能多地通过与Environment交互的过程中获取较大的Reward。

agent: ( 感知t | Rt -> At )

Environment: ( At | 感知t+1, Rt+1) ,t + = 1

3. 强化学习系统的要素：

历史 Ht = O1, R1, A1, O2, ..., Rt —— t为止所有可观测变量；决定了接下来发生什么；

状态 St = f(Ht) ——是关于历史的函数

策略 $\pi$ , 从状态到动作的映射——确定性策略 a= $\pi$ (s); 随即策略 $\pi$ (a|s) = P(At = a|St = s)

决定了agent在t时刻的行为方式。

奖励 R，是一个标量

价值函数 $V_{\pi}(s) = E_{s}[R_{t+1} + \gamma R_{t+2} + ... |S_{t} = s]$ —— 其中 $\gamma$ 为折扣因子。

环境模型 —— 模拟环境行为——预测下一个状态： $P_{ss'}^{a} = P[S_{t+1} = s' | S_{t} = s , A_{t} = a]$

预测下一个奖励： $R_{s}^{a} = E[R_{t+1} | S_{t} = s, A_{t} = a]$

4. 强化智能体分类：

分类1：是否需要建立环境模型

1.有环境模型：基于模型的强化学习（迷宫游戏，围棋）

2. 没有环境模型：模型无关的强化学习

分类2：按照策略区分

1. 基于价值的强化学习：

关注如何估计价值函数 V(s),Q(s,a)

基于V(s)和Q(s,a)可以得到策略 $\pi(s)$

2. 基于策略的强化学习：

直接得到策略 $\pi(s)$

基于 $\pi(s)$ 也能求出V $\pi(s)$ 和Q $\pi(s,a)$

3. Actor-Critic:

Actor: 执行策略

Critic：估计价值

5. Eg：迷宫游戏：

状态——位置

行动—— N，E，S，W

状态转移——向某个方向移动，改变位置

奖励——每步-1

V $\pi(s)$ —— 每个状态s下的状态价值

3. 监督学习 VS 强化学习

强化学习中学习器并没有被告诉你每一步正确的行为应该是什么。学习器需要自己去发现哪些行为可以得到最多的奖励，只能通过不停地尝试来发现最有利的动作。

监督学习获取的这些监督数据，其实是让人来标注的。人类的这个标注结果决定了它永远不可能超越人类

对于强化学习，它在环境里面自己探索，有非常大的潜力，它可以获得超越人的能力的这个表现，比如谷歌 DeepMind 的 AlphaGo。

监督学习假设模型的决策不会影响环境，而强化学习假设模型的决策会改变环境。

华华不在

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[强化学习-1] 强化学习概述

讨论的是一个智能体(Agent) 如何在一个复杂不确定的环境(Environment)里面去最大化它能获得的奖励(Reward)的问题。反映一个事物与其他事物之间的相互依存性和关联性，是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。，它在环境里面自己探索，有非常大的潜力，它可以获得超越人的能力的这个表现，比如谷歌 DeepMind 的 AlphaGo。，例如根据数据集预测楼宇能耗，输出的便是单一的数字。它从过去的数据中学习，并将学习的结果应用到当前的数据中，以预测未来的事件。
复制链接

扫一扫

专栏目录