第一章 相关数学符号
1、模型
介绍了机器学习流程:收集若干样本——训练样本 (80 个)和测试样本(20个)——选用机器学习算法——在训练集上进行训练——产出得到模型——用测试集来测试模型的效果
2、泛化
#数据:数据量——经验,特征工程——区分人种
#算法:数据→模型
#分布:样本推总体
3、分布
假设样本空间服从一个未知“分布”D,收集到的样本都是独立地从该分布中采样得到,即“独立同分布”。通常收集到的样本越多,越能从样本中反推出D的信息
4、假设空间
假设xy关系(一次or二次)→算法→模型
5、归纳偏好
不同机器学习算法偏好不同(一元线性回归算法or多项式回归算法)→看测试集表现
第二章 模型评估与选择
1、经验误差与过拟合
#错误率:E= a m
#精度:精度=1-错误率
#误差:学习器的实际预测输出与样本的真实输出之间的差异。
#经验误差/训练误差:学习器在训练集上的误差,平均值
#泛化误差:学习器在新样本上的误差,平均值
#过拟合:模型的学习能力相对于数据来说过于强大
2、评估方法
#3折交叉验证
两套参数配置方案——通过分层采样将数据集D划分为3个大小相似的互斥子集——将3次测试结果求平均——Scorea、Scoreb——比较Scorea 和 Scoreb 优劣——确定算法在数据集D上效果最好的参数配置方案
#验证集
划分出训练集和测试集——对训练集采用留出法划分出训练集和新的测试集(验证集)——基于验证集的测试结果——调参选出最优参数配置方案——将验证集合并进训练集——合并后的训练集上重新训练——再用测试集来评估训练得到的模型的性能