统计学习及监督学习概论

一、统计学习

1.统计学习的对象:数据

关于数据的基本假设:同类数据具有一定的统计规律性
可用概率统计方法处理,以 随机变量 描述 数据中的特征 以 概率分布 描述数据的统计规律

2.统计学习的方法

基于 数据 构建 概率统计模型 从而对数据进行预测和分析

分类:监督学习、无监督学习、强化学习等

有时还有半监督学习、主动学习

监督学习 主要用于 分类、标注、回归问题

三要素:模型、策略、算法

3.统计学习的分类

(1)监督学习 supervised learning

标注数据 中学习预测模型的机器学习问题
标注数据表示输入输出的对应关系

本质:学习输入到输出的映射的统计规律

输入空间 和 特征空间 有时为同一空间 有时不,不时,就通过 映射 产生联系
特征空间的每一维对应一个特征.

人们根据输入输出变量的不同类型,对预测任务基于不同的名称

回归问题: 输入变量X 与 输出变量Y 均为 连续变量 的预测问题
分类问题: 输出变量 为有限个离散变量的预测问题
标注问题: 输入变量与输出变量均为 变量序列 的预测问题

联合概率分布:

监督学习假设输入与输出的随机变量X和Y 遵循联合概率分布P(X,Y)
P(X,Y)表示分布函数,在 学习过程假定 这一联合分布 存在 ,但对于 学习系统 来说,联合概率分布的具体定义是未知的。

训练数据和测试数据被看作是 依联合概率分布P(X,Y) 独立同分布 产生的

监督学习关于数据的基本假设: X和Y具有联合概率分布

假设空间:

监督学习的目的:学习一个由输入到输出的映射
该映射由模型来表示,学习的目的在于找到最好的这样的模型
模型属于由输入空间到输出空间的映射的集合——这个集合即假设空间
假设空间的确定意味着 学习范围 的确定

监督学习的模型可以是 概率模型非概率模型
由条件概率分布P(Y|X) 或 决策函数Y=f(X) 表示,随具体学习方法而定

问题的形式化:

监督学习 利用 训练数据集 学习一个模型,再用模型对 测试样本集 进行预测,即监督学习分为 学习和预测 两个过程

训练数据集需要人工给出,所以称为 监督学习

模型具有好的预测能力,则训练样本输出 y i y_i yi 和模型输出 f ( x i ) f(x_i) f(xi) 之间的差应该足够小。

学习系统通过不断的尝试,选取最好的模型

结果: 输出相应的 y n + 1 y_{n+1} yn+1
(2)无监督学习 unsupervised learning

是从 无标注数据 中学习预测模型的机器学习问题
无标注数据:自然得到的数据
预测模型 表示数据的类别、转换或概率

本质:学习数据中的统计规律或潜在结构

模型可以实现对数据的 聚类、降维或概率估计
无监督学习旨在 从假设空间中选出在 给定评价标准下 的最优模型

注意: 这里不叫输出空间了,而是:隐式结构空间 用Z表示

流程和监督学习类似

结果:由 P ^ ( x ∣ z ) \hat{P}\left( x|z \right) P^(xz)给出输入的概率 P ^ ( x N + 1 ∣ z N + 1 ) \hat{P}\left( x_{N+1}|z_{N+1} \right) P^(xN+1zN+1),进行 概率估计
(3)强化学习 reinforcement learning

是指 智能系统在与环境的连续互动中 学习最优行为策略 的机器学习问题

关键名词:步骤 t  状态 s t s_t st  动作 a t a_t at  奖励 r t + 1 r_{t+1} rt+1

由此而产生的 策略 π \pi π 以及:

奖励函数 r(s,a)

v π ( s ) v_{\pi}\left( s \right) vπ(s)

(state)value function :策略 π \pi π 从某一个状态s开始的长期累计奖励的数学期望

q π ( s , a ) q_{\pi}\left( s,a \right) qπ(s,a)

action value function:策略 π \pi π 从某一个状态s和动作a开始的长期累计奖励的数学期望


要学习的策略表示为 给定状态下采取的动作
目标是 长期累积reward的最大化
强化学习过程中,系统不断试错,以达到学习最优策略的目的

分类:

注意:
1.model-free and policy-based的方法不直接学习 模型,而是试图求解最优策略 π ∗ \pi^* π
表示为函数 a = f ∗ ( s ) a=f^*(s) a=f(s) 或是 条件概率分布 P ∗ ( a ∣ s ) P^*(a|s) P(as)

学习通常从一个 具体策略 开始,通过 搜索更优的策略 进行

2.model-free and value-based的方法也不直接学习 模型,而是试图求解最优价值函数,特别是最优动作价值函数 q ∗ ( s , a ) q^*(s,a) q(s,a) ,这样可以简介学到最优策略,根据该策略在给定的状态下做出相应动作

学习通常从一个 具体价值函数开始,通过搜索 更优的价值函数 进行

(4)半监督学习和主动学习
semi-supervised learning
active learning
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值