机器学习入门(吃瓜第一章+第二章)

目录

第一章 绪论

1.1 什么是机器学习

1.2 基本术语

1.3 假设空间

1.4 机器学习三要素

第二章 模型评估与选择

2.1 经验误差与过拟合

2.2 评估方法

2.2.1 留出法

2.2.2 交叉验证法

2.2.3 自助法

2.2.4 调参与最终模型

2.3 性能度量

2.3.1 错误率与精度

2.3.2 查准率P、查全率R和F1

2.3.3 ROC


第一章 绪论

1.1 什么是机器学习

机器学习是将无序数据转换为有用信息的过程,研究学习算法的学科。根据Tom M. Mitchell的定义,一个计算机程序如果能够通过经验E在某些任务T上的性能P不断提高,那么该程序被认为是能够从经验中学习的。例如,在垃圾邮件分类任务中,通过不断增加带标签的邮件数据集(经验E),提高分类准确率(性能度量P),程序在该任务T上的性能不断提升,即说明程序学会了从经验中学习。

1.2 基本术语

  • 样本/示例:数据集中的一条数据。例如西瓜数据集中,每一条记录。
  • 属性/特征:描述样本的维度,如「色泽」、「根蒂」、「敲声」。
  • 样本空间/属性空间/输入空间:样本的特征向量所在的空间。
  • 特征向量:样本在特征空间中的坐标向量。
  • 标记:关于示例结果的信息,如(色泽=青绿,根蒂=蜷缩,敲声=浊响),标记为好瓜。
  • 分类:预测离散值的任务,如判断西瓜是“好瓜”还是“坏瓜”。
  • 回归:预测连续值的任务,如预测西瓜的成熟度。
  • 假设:模型对数据潜在规律的描述。
  • 真相:样本背后的实际规律。
  • 学习过程:寻找或逼近真相的过程。
  • 泛化能力:模型适用于新样本的能力。
  • 监督学习:训练数据有标记信息,如分类和回归任务。
  • 非监督学习:训练数据没有标记信息,如聚类任务。

1.3 假设空间

假设空间是指包含所有可能的条件概率分布或决策函数的集合。

1.4 机器学习三要素

  • 模型:根据具体问题确定假设空间。
  • 策略:根据评价标准确定选取最优模型的策略,通常通过定义一个损失函数来实现。
  • 算法:求解损失函数以确定最优模型的方法。

第二章 模型评估与选择

2.1 经验误差与过拟合

  • 误差:学习器对样本的实际预测结果与真实值之间的差异。
  • 训练误差:在训练集上的误差。
  • 测试误差:在测试集上的误差。
  • 泛化误差:学习器在所有新样本上的误差。
  • 过拟合:模型过度拟合训练数据中的噪音和细节。
  • 欠拟合:模型无法捕捉训练数据的基本规律。

2.2 评估方法

评估方法的目的是选择泛化误差最小的模型。

2.2.1 留出法

  • 将数据集分为训练集和测试集,通常使用2/3到4/5的样本用于训练。
  • 保持数据分布一致性,采用分层抽样。
  • 多次随机划分取平均值,以提高稳定性。

2.2.2 交叉验证法

  • 将数据集分为k个子集,进行k次训练和测试。
  • 每次使用k-1个子集进行训练,剩下的子集进行测试。
  • 常用的k值是10,称为10折交叉验证。

2.2.3 自助法

  • 适用于数据集较小的情况。
  • 从数据集中随机抽样形成新的训练集,同时剩余的样本作为测试集。
  • 这种方法可以改变数据分布,引入估计偏差。

2.2.4 调参与最终模型

  • 调参涉及对不同参数配置的模型进行评估和选择,通常在预设范围内进行。
  • 选定学习算法和参数配置后,使用完整数据集重新训练模型。
  • 在实际中,先用留出法划分训练集和测试集,再对训练集进行留出法划分出训练集和验证集,基于验证集结果调参,选出最优参数配置后,用测试集评估最终模型性能。

2.3 性能度量

用于评估模型泛化能力的标准。

2.3.1 错误率与精度

  • 错误率:分类错误的样本数占总样本数的比例。
  • 精度:分类正确的样本数占总样本数的比例。

2.3.2 查准率P、查全率R和F1

  • 查准率P:预测为正例且实际为正例的样本数占所有预测为正例样本数的比例。
  • 查全率R:预测为正例且实际为正例的样本数占所有实际为正例样本数的比例。
  • F1分数:查准率和查全率的调和平均数,公式为:]

2.3.3 ROC

  • ROC曲线:纵轴为真正例率(True Positive Rate),横轴为假正例率(False Positive Rate)。
  • AUC:ROC曲线下面积,用于衡量模型区分正负样本的能力。

参考文献

[1] 【吃瓜教程】《机器学习公式详解》(南瓜书)与西瓜书公式推导
[2] 周志华.机器学习[M].清华大学出版社,2016.
[3] 谢文睿 秦州 贾彬彬.机器学习公式详解第2版[M].人民邮电出版社,2023.

  • 21
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值