本次打卡对应了西瓜书第1/2章的内容。
西瓜书第1章主要介绍了机器学习的概念,基本术语,发展过程,以及当前现状。总的来说,第1章的重点并不多,是一个起到引导作用的章节。
西瓜书第2章主要介绍了模型评估。由于在训练机器学习模型时,很可能会出现过拟合或者欠拟合的情况,导致新样本无法被模型准确地预测。因此,需要对模型的泛化误差进行评估。首先,数据集需要划分为训练集和测试集,其中,训练集用于训练模型,而测试集全程不参与训练,而是用来测试模型对新样本的判别能力。在划分数据集上,基本会选择留出法,交叉验证法,自助法等方法。在划分数据集之后,还需要选择可以衡量模型泛化能力的评价标准,即性能度量。针对回归任务常用的性能度量是均方误差,而针对分类任务的性能度量包括精度,查准率,查全率,F1度量,以及AUC。