观前提示:这是一份关于跟着datawhale一起进行小组学习(吃瓜)的自学笔记。学习所用书籍《机器学习》(又名西瓜书)《机器学习公式详解》(又名南瓜书),视频教程《吃瓜教程》
第一章-绪论
1.1 引言
该小节比较简短,主要运用西瓜的实例引出机器学习的概念。
这一小节用《南瓜书》作者谢文睿在视频中一句简短有力的话来总结就是 机器学习是研究关于"学习算法"(一类能从数据中学习出其背后潜在规律的算法)的一门学科 。
1.2 基本术语
还是用西瓜的例子介绍了一些机器学习相关基础概念与基本术语。
-
样本(记录):关于一个事物或对象(这里是一个西瓜)的描述,反应事件在某方面的表现,将其用特征向量来表示。例如将一个西瓜用(色泽=青绿;根蒂=蜷缩;敲声=清脆)来描述。
-
数据集:样本的集合称为一个数据集。
-
样本空间:表示样本的特征向量所在的空间
-
模型:机器学习模型是从训练数据中学到的一种假设函数(
f(x)=y
),用于描述输入和输出之间的映射关系。这个假设函数可以将输入的特征向量映射到一个输出空间,从而对未见过的数据进行预测。 -
标记:机器学习的本质就是在学习样本在某个方面的表现是否存在潜在规律,我们称该方面的信息为“标记”,标记所在空间称为输出空间。
-
泛化:由于机器学习的目的是根据已知来对未知做出尽可能准确的判断,因此对未知事物判断的准确与否才是衡量一个模型好坏的关键,因此我们称为泛化能力。
-
分布:此处的"分布"指的是概率论中的概率分布,通常假设样本空间服从一个未知的分布,而我们收集到的每个样本都是独立的从该分布中采样得到,即"独立同分布"。
1.3 假设空间
在机器学习中,模型可以看作是从假设空间中选择一个具体的假设。假设空间代表了在该假设下所有可能的模型,学习过程就是在假设空间中选择一个最优模型。而一个训练集可以有多个假设空间,且在不同的假设空间中都有可能学到能够拟合训练集的模型,我们将所有能够拟合训练集的模型构成的集合称为"版本空间"。
1.4 归纳偏好
当选用不同的算法时,学得的模型是不同种类的函数,如一元一次函数和一元二次函数,所以不同的机器学习算法有不同的偏好,我们称为归纳偏好。
"奥卡姆剃刀"原则:“若有多个假设与观察一致,则选择最简单的那个” 。而最常用的方法则是基于模型在测试集上的表现来评判模型之间的优劣。但机器学习算法之间没有绝对的优劣之分,只有是否适合当前待解决问题之分。
(第一章周志华老师举了大量西瓜的例子,所以这是机器学习又叫西瓜书的原因?)