机器学习入门（吃瓜第一章+第二章）

星星子Yocio

已于 2024-06-23 00:33:26 修改

阅读量728

点赞数 21

文章标签：机器学习人工智能

于 2024-06-20 00:31:46 首次发布

本文链接：https://blog.csdn.net/Serena_yocio/article/details/139816159

版权

第一章绪论

1.1 什么是机器学习

机器学习是将无序数据转换为有用信息的过程，研究学习算法的学科。根据Tom M. Mitchell的定义，一个计算机程序如果能够通过经验E在某些任务T上的性能P不断提高，那么该程序被认为是能够从经验中学习的。例如，在垃圾邮件分类任务中，通过不断增加带标签的邮件数据集（经验E），提高分类准确率（性能度量P），程序在该任务T上的性能不断提升，即说明程序学会了从经验中学习。

1.2 基本术语

样本/示例：数据集中的一条数据。例如西瓜数据集中，每一条记录。
属性/特征：描述样本的维度，如「色泽」、「根蒂」、「敲声」。
样本空间/属性空间/输入空间：样本的特征向量所在的空间。
特征向量：样本在特征空间中的坐标向量。
标记：关于示例结果的信息，如（色泽=青绿，根蒂=蜷缩，敲声=浊响），标记为好瓜。
分类：预测离散值的任务，如判断西瓜是“好瓜”还是“坏瓜”。
回归：预测连续值的任务，如预测西瓜的成熟度。
假设：模型对数据潜在规律的描述。
真相：样本背后的实际规律。
学习过程：寻找或逼近真相的过程。
泛化能力：模型适用于新样本的能力。
监督学习：训练数据有标记信息，如分类和回归任务。
非监督学习：训练数据没有标记信息，如聚类任务。

1.3 假设空间

假设空间是指包含所有可能的条件概率分布或决策函数的集合。

1.4 机器学习三要素

模型：根据具体问题确定假设空间。
策略：根据评价标准确定选取最优模型的策略，通常通过定义一个损失函数来实现。
算法：求解损失函数以确定最优模型的方法。

第二章模型评估与选择

2.1 经验误差与过拟合

误差：学习器对样本的实际预测结果与真实值之间的差异。
训练误差：在训练集上的误差。
测试误差：在测试集上的误差。
泛化误差：学习器在所有新样本上的误差。
过拟合：模型过度拟合训练数据中的噪音和细节。
欠拟合：模型无法捕捉训练数据的基本规律。

2.2 评估方法

评估方法的目的是选择泛化误差最小的模型。

2.2.1 留出法

将数据集分为训练集和测试集，通常使用2/3到4/5的样本用于训练。
保持数据分布一致性，采用分层抽样。
多次随机划分取平均值，以提高稳定性。

2.2.2 交叉验证法

将数据集分为k个子集，进行k次训练和测试。
每次使用k-1个子集进行训练，剩下的子集进行测试。
常用的k值是10，称为10折交叉验证。

2.2.3 自助法

适用于数据集较小的情况。
从数据集中随机抽样形成新的训练集，同时剩余的样本作为测试集。
这种方法可以改变数据分布，引入估计偏差。

2.2.4 调参与最终模型

调参涉及对不同参数配置的模型进行评估和选择，通常在预设范围内进行。
选定学习算法和参数配置后，使用完整数据集重新训练模型。
在实际中，先用留出法划分训练集和测试集，再对训练集进行留出法划分出训练集和验证集，基于验证集结果调参，选出最优参数配置后，用测试集评估最终模型性能。

2.3 性能度量

用于评估模型泛化能力的标准。

2.3.1 错误率与精度

错误率：分类错误的样本数占总样本数的比例。
精度：分类正确的样本数占总样本数的比例。

2.3.2 查准率P、查全率R和F1

查准率P：预测为正例且实际为正例的样本数占所有预测为正例样本数的比例。
查全率R：预测为正例且实际为正例的样本数占所有实际为正例样本数的比例。
F1分数：查准率和查全率的调和平均数，公式为：]

2.3.3 ROC

ROC曲线：纵轴为真正例率（True Positive Rate），横轴为假正例率（False Positive Rate）。
AUC：ROC曲线下面积，用于衡量模型区分正负样本的能力。

参考文献

[1] 【吃瓜教程】《机器学习公式详解》（南瓜书）与西瓜书公式推导
[2] 周志华.机器学习[M].清华大学出版社,2016.
[3] 谢文睿秦州贾彬彬.机器学习公式详解第2版[M].人民邮电出版社,2023.

星星子Yocio

关注

21
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
机器学习入门（吃瓜第一章+第二章）

机器学习是将无序数据转换为有用信息的过程，研究学习算法的学科。根据Tom M. Mitchell的定义，一个计算机程序如果能够通过经验E在某些任务T上的性能P不断提高，那么该程序被认为是能够从经验中学习的。例如，在垃圾邮件分类任务中，通过不断增加带标签的邮件数据集（经验E），提高分类准确率（性能度量P），程序在该任务T上的性能不断提升，即说明程序学会了从经验中学习。
复制链接

扫一扫