西瓜书1+2章总结
第1章 绪论
1.1 引言
数据=经验
1.2 基本术语
- 数据集(data set)
- 样本(sample)/示例(instance)
- 属性(attribute)/特征(feature)
- 属性值(attribute value)
- 属性空间(attribute space)
- 特征向量(feature vector):属性空间中的一个实例
- 学习(learning)/训练(training):从数据中学得模型的过程
- 训练集(training set)
- 测试集(testing set)
- 模型(model)/学习器(learner):从数据中学得的结果
- 泛化(generalization)能力:使得无监督学习的结果适用于没在训练集中出现的样本
- 独立同分布 iid(independent and identically distributed):样本空间中全体样本服从一个未知分布(D)
- 机器学习:
1.3 假设空间
归纳(induction):从特殊到一般的泛化(generalization)过程
演绎(deduction):从基础原理推演出具体情况
第2章 模型评估与选择
2.1 经验误差与过拟合
- 误差(error):模型(model)/学习器的实际预测输出与样本的真实输出之间的差异
- 拟合:包括过拟合(overfitting)与欠拟合(underfitting)
2.2 评估方法
- 数据处理:对原始数据集D进行适当处理,从中产生训练集(S)和测试集(T)
- 评估指标: 使用测试集T(testing set)来测试学习器对新样本的判别能力,以测试误差(testing error)作为泛化误差的近似
2.2.1 留出法(hold-out)
- 思路:将数据集D划分成两个互斥的集合,其中一个集合作为训练集S,另一个集合作为测试集T。在S上训练出模型之后,用T来评估其测试误差,作为泛化误差的估计
- 样本采样方式:分层抽样(stratified sampling)—保留类别比例的采样方式
- 经验:常将样本的2/3~4/5用于训练,其余用于测试
2.2.2 交叉验证法(cross validation) /k折交叉验证(k-fold cross validation)
- 思路:例如分成1、2、3、4四部分,我们可以先以1、2、3为训练集,以4为测试集;然后以1、2、4为训练集,以3为测试集…
- 样本采样方式:分层抽样
- 经验:常取k=10(10折交叉验证),也取k=5或20
2.2.3 自助法(bootstrapping)
-
思路:以自主采用法为基础,适用于数据集较小、难以有效划分训练/测试集时很有用;此外他也能从原始数据中产生多个不同的训练集,对集成学习很有帮助。…
-
样本采样方式:自助采样法(bootstrap sampling)
2.2.4 调参与最终模型
参数调节/调参(parameter tuning),学习算法的参数需要设定,参数的细小差别可能会对产生的模型性能产生显著的变化。
2.3 性能度量
是对模型泛化能力的评价标准
2.3.1 错误率与精度
-
适用情况:常用于分类
-
定义:
----对于离散样例集D:
①错误率
②精度
----对于连续数据分布D:
①错误率
②精度
2.3.2 查准率P(precision)、查全率R(recall)与FI
-
适用情况:常用于信息检索,web检索
-
定义
1.查准率P
2.查全率R
3.平衡点BEP(Break-Even Point):
-
是查准率=查全率时的取值
-
综合考察查准率、查全率的性能度量
4.F1
- 在BEP上的优化指标
-