DataWhale 吃瓜教程第一次打卡：第一章、第二章

最新推荐文章于 2023-01-19 13:21:28 发布

偏不食肉糜

最新推荐文章于 2023-01-19 13:21:28 发布

阅读量872

点赞数

分类专栏： DataWhale吃瓜打卡文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/Pbsrm/article/details/123465279

版权

本文是DataWhale吃瓜教程的初步学习笔记，涵盖了机器学习的模型评估方法，包括留出法、交叉验证法、自主法及其优缺点，并详细介绍了查准率、查全率和F1值在性能度量中的应用，特别是Macro-F1和Micro-F1的差异。

摘要由CSDN通过智能技术生成

DataWhale 吃瓜教程第一次打卡：第一章、第二章

这是DataWhale吃瓜教程打卡第一次打卡任务——阅读学习西瓜书前两章节的部分内容，由于笔者本身有一定的机器学习知识储备，参加打卡活动只是为了查漏补缺，因此此文章不求将西瓜书内容进行全面总结，而是用来记录自己的查漏补缺的过程，笔记内容皆为自己平时没有学到的知识或者自己认为重要值得再提的知识。

注：本文章主要内容皆来自于周志华老师的西瓜书——《机器学习》以及DataWhale团队发布的南瓜书——《机器学习公式详解》，部分内容是自己对于相关知识的体悟但也不是无根之水（还是来源上述两本书🤣）。

1. 第一章：绪论t

机器学习形式化定义(Mitchell，1997)：假设用 $P$ 来评估计算机程序在某任务类 $T$ 上的性能，若一个程序通过利用经验 $E$ 在 $T$ 中任务上获得了性能改善，则我们就说关于 $T$ 和 $P$ ，该程序对 $E$ 进行了学习。

以传统的监督学习为例：

$E$ ：数据集可以视为机器学习所利用的经验。
$P$ ：损失函数可以衡量机器学习模型在数据集上的性能，有监督机器学习模型的优化就是基于根据数据集样本计算出的损失函数开始的。
$T$ ：机器学习模型执行的具体任务，比如分类或者回归任务。

2. 第二章：模型评估与选择

2.1 评估方法

在训练机器学习模型时，需要将数据集进行合理地划分为训练集 $S$ 和测试集 $T$ ，分别用于模型的训练与评估，常见的划分以及评估方法如下:

2.1.1 留出法

留出法(hold-out)直接将数据集 $D$ 划分为两个互斥的集合，分别为训练集 $S$ 和测试集 $T$ ，即： $D=S\cup T$ ， $S\cap T=\varnothing$ ，一般留出法需要注意以下三点：

分层采样(stratified sampling)，即尽量保持训练集与测试集中不同种类标签的比例相同，如果两个集合中的标签比例不同，则误差估计将由于训练集与测试集数据分布的差异而产生偏差。
使用留出法时，需要进行多次的随机划分，在此基础上多次进行试验，将所有的实验结果取平均值，以此来避免单次留出法所面对的估计不稳定的问题。
划分数据集时，训练集数据量不宜过多也不宜过少，训练集样本数量一般占总样本数量的 $\frac{2}{3}\sim\frac{4}{5}$ 。

2.1.2 交叉验证法

交叉验证法(cross validation)先将数据集 $D$ 划分为 $k$ 个大小相似的互斥子集，即 $D=D_1\cup D_2\cup...\cup D_k$ ， $D_i\cap D_j =\varnothing (i\neq j)$ 。每次训练用 $k - 1$ 个子集的并集作训练集，剩下的那个自己作测试集，一共进行 $k$ 次实验再将评估结果取平均值。交叉验证法也有以下几点需要注意：

交叉验证法中 $k$ 的取值对评估结果的稳定性和保真性有较大影响，为了强调这一点，通常称交叉验证法为“ $k$ -折交叉验证法”(k-flod cross validation)。一般取 $k = 10, 5, 20$ 。
交叉验证法仍然需要通过分层采样划分数据集
交叉验证法的特殊形式是“留一法”，即每次只使用一个样本作为测试数据。绝大多数情况下，留一法中被实际评估的模型与期望评估的用数据集 $D$ 训练出的模型比较相似。因此常认为留一法结果比较准确。但是当样本量过大时，留一法显然不现实。

2.1.3 自主法

我们希望评估的是使用完整数据集 $D$ 训练出的模型的性能，但是留出法和交叉验证法(留一法不在此范围)会导致训练数据量小于初始数据量，这会引入一些因训练样本规模不同而导致的估计偏差。设计自助法(bootstrapping)的目的就是为了实现减小训练样本规模不同造成的影响同时还能比较高效地进行实验评估(留一法虽然比较精确，但是计算复杂度过高)。

给定包含