第一章 绪论
基本概念
1、机器学习:机器学习研究的主要内容是关于在计算机上产生模型的算法
2、基本分类:
- 分类
- 回归
- 聚类
其中,分类和回归是 监督学习 的代表,聚类是 无监督学习 的代表
3、泛化:即学得模型适用于整个样本空间的能力
4、关于归纳偏好:- 算法对于某种假设类型的偏好
要注意,对于某种偏好的选择,即是“特征选择”
- 如何量化偏好:“奥卡姆剃刀”
- 若有多个假设与观察一致,则选最简单的
- 哪一个更简单?-> NLF定理->具体问题具体分析
NLF重要前提:所有“问题”的出现机会相同
其寓意是脱离具体问题,空泛讨论什么算法更好没有意义
- 若有多个假设与观察一致,则选最简单的
- 如何量化偏好:“奥卡姆剃刀”
- 算法对于某种假设类型的偏好
模型的评估与选择
模型建立时可能的问题:
- 欠拟合
- 过拟合
其中欠拟合很好处理,过拟合是比较棘手的问题。各类学习算法一定会带有针对过拟合的措施,过拟合无法彻底避免。
评估模型方法
- 留出法
一般要采用若干次随机划分,重复实验取平均。
- 交叉验证法
10次10折交叉验证与100次留出都是训练/测试了100次
- 自助法
自助法产生的数据集改变了初始数据集的分布,会引入估计偏差。
在初始数据足够时,留出法和交叉验证法更常用。
调参
性能度量
- 误差率
- 精度
- 查准率
- 查全率