西瓜书学习笔记——第1章:绪论
1.1 基本术语
数据集
样本(示例)
特征(属性):反应事件或者对象在某方面的表现
属性值:属性的特定取值
样本空间、属性空间、输入空间:属性张成的张量
特征向量:样本在属性空间的坐标,称为特征向量
维数:特征向量坐标个数
1.2 重要概念
独立同分布:假设样本空间中全体样本服从一个未知的“分布”
奥卡姆剃刀原理:简单就是最好
没有免费的午餐定理:假设所有可能均匀分布
西瓜书学习笔记——第2章:模型评估与选择
2.1 经验误差与过拟合
误差:学习器的实际预测输出与样本的真实输出之间差异称为“误差”
过拟合:不具有代表性的特点被学习
欠拟合:学习不到位
2.2 评估方法
通常利用测试集来测试系统的性能,测试集需要与训练集互斥
训练集与测试集划分方法:
- 留出法
- 交叉验证(留一法)
- 自助法:有放回的随机抽取
训练接:训练模型
验证集:评估测试的数据集
测试集:用测试 集上的判别效果来估计模型在实际使用时的泛化能力
2.3 性能度量
错误率
精度
查准率
查全率
F1 score
P-R曲线
ROC
AUC
代价敏感错误率
代价曲线
参考文献:《机器学习》