考虑三种模型一致性模型、PAC模型、错误边界模型。
一致性模型
一致性模型(Consistency Model,CM)
CM模型存在的问题:
- 未考虑模型的泛化能力
- 假设不存在噪声干扰
- DNF是可学习的,但是k-DNF却不是
- 严格的一致性将导致过拟合
PAC
研究batch model情景,模型假设为:
- 训练数据和测试数据独立同分布
- 数据有标签
基本的问题为:
- 得到符合要求的假设需要的样本容量
- 模型的泛化能力
错误边界模型
mistake bound model
研究在线学习(online learning,vs batch or offline learning)情景的错误.
- 没有关于样本分布的假设
- 没有单独的训练集
- 学习器预测每一个遇到的样本
- 需要计算出错量
学习过程为:
- 学习器接受未标记数据 x∈X
- 学习器预测 x 的类别
- 学习器被告知
x 的正确分类
目标:最小出错数量
FindS
having 算法
The Hedge Algorithm
expert
感知机算法
最大似然模型
Maximum Likelihood model
VC维
计算VC维的目的:
1.在特定的应用环境中什么学习器是足够达到学习目的的;
2.根据结构风险最小化的原则选择最好的学习器。
计算学习器的VC维
- 决策树
- 感知机
- 神经网络
- 决策列表(decision List)
- 支持向量机
- …