一、统计学习
1.统计学习的对象:数据
关于数据的基本假设:同类数据具有一定的统计规律性
可用概率统计方法处理,以 随机变量 描述 数据中的特征 以 概率分布 描述数据的统计规律
2.统计学习的方法
基于 数据 构建 概率统计模型 从而对数据进行预测和分析
分类:监督学习、无监督学习、强化学习等
有时还有半监督学习、主动学习
监督学习 主要用于 分类、标注、回归问题
三要素:模型、策略、算法
3.统计学习的分类
(1)监督学习 supervised learning
从 标注数据 中学习预测模型的机器学习问题
标注数据表示输入输出的对应关系
本质:学习输入到输出的映射的统计规律
输入空间 和 特征空间 有时为同一空间 有时不,不时,就通过 映射 产生联系
特征空间的每一维对应一个特征.
人们根据输入输出变量的不同类型,对预测任务基于不同的名称
回归问题: 输入变量X 与 输出变量Y 均为 连续变量 的预测问题
分类问题: 输出变量 为有限个离散变量的预测问题
标注问题: 输入变量与输出变量均为 变量序列 的预测问题
联合概率分布:
监督学习假设输入与输出的随机变量X和Y 遵循联合概率分布P(X,Y)
P(X,Y)表示分布函数,在 学习过程 中 假定 这一联合分布 存在 ,但对于 学习系统 来说,联合概率分布的具体定义是未知的。
训练数据和测试数据被看作是 依联合概率分布P(X,Y) 独立同分布 产生的
监督学习关于数据的基本假设: X和Y具有联合概率分布
假设空间:
监督学习的目的:学习一个由输入到输出的映射
该映射由模型来表示,学习的目的在于找到最好的这样的模型
模型属于由输入空间到输出空间的映射的集合——这个集合即假设空间
假设空间的确定意味着 学习范围 的确定
监督学习的模型可以是 概率模型 或 非概率模型
由条件概率分布P(Y|X) 或 决策函数Y=f(X) 表示,随具体学习方法而定
问题的形式化:
监督学习 利用 训练数据集 学习一个模型,再用模型对 测试样本集 进行预测,即监督学习分为 学习和预测 两个过程
训练数据集需要人工给出,所以称为 监督学习
模型具有好的预测能力,则训练样本输出 y i y_i yi 和模型输出 f ( x i ) f(x_i) f(xi) 之间的差应该足够小。
学习系统通过不断的尝试,选取最好的模型
结果: 输出相应的 y n + 1 y_{n+1} yn+1
(2)无监督学习 unsupervised learning
是从 无标注数据 中学习预测模型的机器学习问题
无标注数据:自然得到的数据
预测模型 表示数据的类别、转换或概率
本质:学习数据中的统计规律或潜在结构
模型可以实现对数据的 聚类、降维或概率估计
无监督学习旨在 从假设空间中选出在 给定评价标准下 的最优模型
注意: 这里不叫输出空间了,而是:隐式结构空间 用Z表示
流程和监督学习类似
结果:由 P ^ ( x ∣ z ) \hat{P}\left( x|z \right) P^(x∣z)给出输入的概率 P ^ ( x N + 1 ∣ z N + 1 ) \hat{P}\left( x_{N+1}|z_{N+1} \right) P^(xN+1∣zN+1),进行 概率估计
(3)强化学习 reinforcement learning
是指 智能系统在与环境的连续互动中 学习最优行为策略 的机器学习问题
关键名词:步骤 t 状态 s t s_t st 动作 a t a_t at 奖励 r t + 1 r_{t+1} rt+1
由此而产生的 策略 π \pi π 以及:
奖励函数 r(s,a)
v π ( s ) v_{\pi}\left( s \right) vπ(s):
(state)value function :策略 π \pi π 从某一个状态s开始的长期累计奖励的数学期望
q π ( s , a ) q_{\pi}\left( s,a \right) qπ(s,a) :
action value function:策略 π \pi π 从某一个状态s和动作a开始的长期累计奖励的数学期望
要学习的策略表示为 给定状态下采取的动作
目标是 长期累积reward的最大化
强化学习过程中,系统不断试错,以达到学习最优策略的目的
分类:
注意:
1.model-free and policy-based的方法不直接学习 模型,而是试图求解最优策略
π
∗
\pi^*
π∗
表示为函数
a
=
f
∗
(
s
)
a=f^*(s)
a=f∗(s) 或是 条件概率分布
P
∗
(
a
∣
s
)
P^*(a|s)
P∗(a∣s)
学习通常从一个 具体策略 开始,通过 搜索更优的策略 进行
2.model-free and value-based的方法也不直接学习 模型,而是试图求解最优价值函数,特别是最优动作价值函数 q ∗ ( s , a ) q^*(s,a) q∗(s,a) ,这样可以简介学到最优策略,根据该策略在给定的状态下做出相应动作
学习通常从一个 具体价值函数开始,通过搜索 更优的价值函数 进行