文章目录
1. 统计学习简介
1.1 定义
统计学习是计算机基于数据构建概率统计模型并运用模型对数据进行分析与预测的一门学科。
1.2 对象
data:计算机及互联网上的各种数字、文字、图像、视频、音频数据以及它们的组合。
1.3 目的
用于对数据(特别是未知数据)进行预测和分析。
2. 统计学习的方法
统计学习方法分类:
- 监督学习(Supervised learning)
- 无监督学习(Unsupervised learning)
- 半监督学习(Semi-supervised learning)
- 强化学习(Reinforcement learning)
2.1 监督学习
- 训练数据 training data
- 模型 model / 假设空间 hypothesis
- 评价准则 evaluation criterion / 策略 strategy
- 算法 algorithm
联合概率分布
- 假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)
- P(X,Y)为分布函数或分布密度函数
- 对于学习系统来说,联合概率分布是未知的
- 训练数据和测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的
假设空间
- 监督学习目的是学习一个由输入到输出的映射,称为模型
- 模式的集合就是假设空间(hypothesis space)
- 概率模型:条件概率分布P(Y|X), 决策函数:Y=f(X)
2.2 无监督学习
- 训练集:U = {x1,x2,……,xN}
- 模型函数:z = g(x)
- 条件概率分布:P(z|x)
2.3 强化学习
强化学习定义
强化学习的马尔可夫决策过程是状态、奖励、动作序列上的随机过程,由五元组<S,A,P,r,γ>组成。
- S是有限状态(state)的集合
- A是有限动作(action)的集合
- P是状态转移概率(transition probability)函数:P(s’|s,a)=P(st+1=s,at=a)
- r是奖励函数(reward function):r(s,a) = E(rt+1|st=s,at=a)
- γ是衰减系数(discount factor):γ位于区间[0,1]
强化学习概念
- 策略:给定状态下动作的函数a=f(s)或者条件概率分布P(a|s)
- 价值函数:
-
状态价值函数
-
动作价值函数
-
强化学习方法
无模型(model-free)
- 基于策略(policy-based):求解最优策略π*
- 基于价值(value-based):求解最优价值函数
有模型(model-based)
- 通过学习马尔可夫决策过程的模型,包括转移概率函数和奖励函数
- 通过模型对环境的反馈进行预测
- 求解价值函数最大的策略π*
2.4 半监督学习
- 少量标注数据,大量未标注数据
- 利用未标注数据的信息,辅助标注数据,进行监督学习
- 较低成本
3. 统计学习三要素
方法 = 模型 + 策略 + 算法
3.1 模型
3.2 策略
求最优模型就是求解最优化问题:
-
损失函数:一次预测的好坏
-
0-1损失函数
-
平方损失函数
-
绝对损失函数
-
-
风险函数:平均意义下模型预测的好坏
3.3 算法
- 如果最优化问题有显式的解析式,算法比较简单
- 但通常解析式不存在,就需要数值计算的方法