目录
第一章 绪论
1.1 什么是机器学习
机器学习是将无序数据转换为有用信息的过程,研究学习算法的学科。根据Tom M. Mitchell的定义,一个计算机程序如果能够通过经验E在某些任务T上的性能P不断提高,那么该程序被认为是能够从经验中学习的。例如,在垃圾邮件分类任务中,通过不断增加带标签的邮件数据集(经验E),提高分类准确率(性能度量P),程序在该任务T上的性能不断提升,即说明程序学会了从经验中学习。
1.2 基本术语
- 样本/示例:数据集中的一条数据。例如西瓜数据集中,每一条记录。
- 属性/特征:描述样本的维度,如「色泽」、「根蒂」、「敲声」。
- 样本空间/属性空间/输入空间:样本的特征向量所在的空间。
- 特征向量:样本在特征空间中的坐标向量。
- 标记:关于示例结果的信息,如(色泽=青绿,根蒂=蜷缩,敲声=浊响),标记为好瓜。
- 分类:预测离散值的任务,如判断西瓜是“好瓜”还是“坏瓜”。
- 回归:预测连续值的任务,如预测西瓜的成熟度。
- 假设:模型对数据潜在规律的描述。
- 真相:样本背后的实际规律。
- 学习过程:寻找或逼近真相的过程。
- 泛化能力:模型适用于新样本的能力。
- 监督学习:训练数据有标记信息,如分类和回归任务。
- 非监督学习:训练数据没有标记信息,如聚类任务。
1.3 假设空间
假设空间是指包含所有可能的条件概率分布或决策函数的集合。
1.4 机器学习三要素
- 模型:根据具体问题确定假设空间。
- 策略:根据评价标准确定选取最优模型的策略,通常通过定义一个损失函数来实现。
- 算法:求解损失函数以确定最优模型的方法。
第二章 模型评估与选择
2.1 经验误差与过拟合
- 误差:学习器对样本的实际预测结果与真实值之间的差异。
- 训练误差:在训练集上的误差。
- 测试误差:在测试集上的误差。
- 泛化误差:学习器在所有新样本上的误差。
- 过拟合:模型过度拟合训练数据中的噪音和细节。
- 欠拟合:模型无法捕捉训练数据的基本规律。
2.2 评估方法
评估方法的目的是选择泛化误差最小的模型。
2.2.1 留出法
- 将数据集分为训练集和测试集,通常使用2/3到4/5的样本用于训练。
- 保持数据分布一致性,采用分层抽样。
- 多次随机划分取平均值,以提高稳定性。
2.2.2 交叉验证法
- 将数据集分为k个子集,进行k次训练和测试。
- 每次使用k-1个子集进行训练,剩下的子集进行测试。
- 常用的k值是10,称为10折交叉验证。
2.2.3 自助法
- 适用于数据集较小的情况。
- 从数据集中随机抽样形成新的训练集,同时剩余的样本作为测试集。
- 这种方法可以改变数据分布,引入估计偏差。
2.2.4 调参与最终模型
- 调参涉及对不同参数配置的模型进行评估和选择,通常在预设范围内进行。
- 选定学习算法和参数配置后,使用完整数据集重新训练模型。
- 在实际中,先用留出法划分训练集和测试集,再对训练集进行留出法划分出训练集和验证集,基于验证集结果调参,选出最优参数配置后,用测试集评估最终模型性能。
2.3 性能度量
用于评估模型泛化能力的标准。
2.3.1 错误率与精度
- 错误率:分类错误的样本数占总样本数的比例。
- 精度:分类正确的样本数占总样本数的比例。
2.3.2 查准率P、查全率R和F1
- 查准率P:预测为正例且实际为正例的样本数占所有预测为正例样本数的比例。
- 查全率R:预测为正例且实际为正例的样本数占所有实际为正例样本数的比例。
- F1分数:查准率和查全率的调和平均数,公式为:]
2.3.3 ROC
- ROC曲线:纵轴为真正例率(True Positive Rate),横轴为假正例率(False Positive Rate)。
- AUC:ROC曲线下面积,用于衡量模型区分正负样本的能力。
参考文献
[1] 【吃瓜教程】《机器学习公式详解》(南瓜书)与西瓜书公式推导
[2] 周志华.机器学习[M].清华大学出版社,2016.
[3] 谢文睿 秦州 贾彬彬.机器学习公式详解第2版[M].人民邮电出版社,2023.