[强化学习-1] 强化学习概述

本文详细介绍了机器学习的两种主要类型:监督学习(包括分类和回归模型)和无监督学习(如聚类和关联),以及强化学习的基本概念、交互过程和要素。强调了强化学习的自主探索和超越人类的能力,与监督学习进行了对比。
摘要由CSDN通过智能技术生成

1.两种类型的机器学习

1. 预测:a. 监督学习 p(x) -> p(y|x)

               b. 无监督学习 p(x,y)

2. 决策:强化学习 S, A, P, R ->\sum Reward

1. 监督学习 (Supervised Learning):

它从过去的数据中学习,并将学习的结果应用到当前的数据中,以预测未来的事件。

在这种情况下,输入和期望的输出数据都有助于预测未来事件。为了准确预测,将输入数据标记为正确答案。

监督学习分为:

1.分类模型:分类模型用于可以对输出变量进行分类,例如“是”或“否”、“通过”或“失败”。分类模型用于预测数据的类别。例如:文本分类,垃圾邮件检测,情绪分析等。例如:

分类模型进行的人脸表情识别

2. 回归模型:回归模型用于输出变量为实际值的问题,例如根据数据集预测楼宇能耗,输出的便是单一的数字。或预测价格等。它最常用于根据先前的观测数据来预测数值。例如:

线性回归(Linear Regression)模型进行的能耗预测(回归模型)

2.无监督学习 (Unsupervised Learning)

没有数据集中的数据、特征之间的关系,根据聚类或一定的模型得到数据之间的关系。没有标签 (label) 例如:

无监督学习分为:

聚类:聚类是将观察值聚成一个一个的组,每一个组都含有一个或者几个特征,‎聚类的目的在于‎‎把相似的东西聚在一起,并不关心这一类是什么‎‎。 因此,一个聚类算法通常只需要知道‎‎如何计算相似度‎‎就可以开始工作了。经常用做异常值的检测。

关联:关联是反映一个事物与其他事物之间的相互依存性和关联性,是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。

3. 监督学习 VS 无监督学习

监督学习:

1. 目标明确

2. 需要带标签的训练数据

3. 效果容易评估

无监督学习:

1. 目标不明确

2. 不需要带标签训练数据

3. 效果很难评估

2. 强化学习 (Reinforcement Learning)

1.基本状态:

图一:强化学习示意图

1. 强化学习(Reinforcement Learning)

讨论的是一个智能体(Agent) 如何在一个复杂不确定的环境(Environment)里面去最大化它能获得的奖励(Reward)的问题。总言而止就是从交互中学习以实现目标。在强化学习过程中,agent 跟 environment 交互。

感知O
状态state
动作action
转移状态P
奖励Reward
2.交互过程:

agent 在环境里面获取到state,agent 会利用这个state输出一个动作(action)。agent通过执行这个action,环境会相应地输出 agent下一个"state_",以及当前的这个action所获得的奖励。agent 的目的就是为了尽可能多地通过与Environment交互的过程中获取较大的Reward。

agent: ( 感知t | Rt -> At )

Environment: ( At | 感知t+1, Rt+1) ,t + = 1

3. 强化学习系统的要素:

历史 Ht = O1, R1, A1, O2, ..., Rt —— t为止所有可观测变量;决定了接下来发生什么;

状态 St = f(Ht) ——是关于历史的函数

策略 \pi, 从状态到动作的映射——确定性策略 a= \pi(s); 随即策略 \pi(a|s) = P(At = a|St = s)

             决定了agent在t时刻的行为方式。

奖励 R,是一个标量

价值函数V_{\pi}(s) = E_{s}[R_{t+1} + \gamma R_{t+2} + ... |S_{t} = s] —— 其中\gamma为折扣因子。

环境模型 —— 模拟环境行为——预测下一个状态:P_{ss'}^{a} = P[S_{t+1} = s' | S_{t} = s , A_{t} = a]

                                                    预测下一个奖励:R_{s}^{a} = E[R_{t+1} | S_{t} = s, A_{t} = a]

4. 强化智能体分类:

分类1:是否需要建立环境模型

1.有环境模型:基于模型的强化学习(迷宫游戏,围棋)

2. 没有环境模型:模型无关的强化学习

分类2:按照策略区分

1. 基于价值的强化学习:

关注如何估计价值函数 V(s),Q(s,a)

基于V(s)和Q(s,a)可以得到策略\pi(s)

2. 基于策略的强化学习:

直接得到策略\pi(s)

基于\pi(s)也能求出V\pi(s)和Q\pi(s,a)

3. Actor-Critic:

Actor: 执行策略

Critic:估计价值

5. Eg:迷宫游戏:

状态——位置

行动—— N,E,S,W

状态转移——向某个方向移动,改变位置

奖励——每步-1

V\pi(s)—— 每个状态s下的状态价值

3. 监督学习 VS 强化学习

强化学习中学习器并没有被告诉你每一步正确的行为应该是什么。学习器需要自己去发现哪些行为可以得到最多的奖励,只能通过不停地尝试来发现最有利的动作。

监督学习获取的这些监督数据,其实是让人来标注的。人类的这个标注结果决定了它永远不可能超越人类

对于强化学习,它在环境里面自己探索,有非常大的潜力,它可以获得超越人的能力的这个表现,比如谷歌 DeepMind 的 AlphaGo。

监督学习假设模型的决策不会影响环境,而强化学习假设模型的决策会改变环境

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值