机器学习西瓜书学习——绪论

我还年轻、、

已于 2022-06-14 18:09:51 修改

阅读量186

点赞数

文章标签：机器学习学习人工智能

于 2022-06-14 18:02:58 首次发布

本文链接：https://blog.csdn.net/m0_52127362/article/details/125281785

版权

在我们日常生活中，我们有时候会根据自己的生活经验，对即将发生的事进行预估。当我们有了足够多的经验，我们就可以对一些情况做出有效的决策。比如说“朝霞不出门晚霞行千里”，就是根据我们生活的经验而得出的。机器学习，我的理解是根据所得到的经验与反馈，去训练出不同的模型，适用于不同的场景。就比如西瓜书中，传入不同的西瓜特征，以及是否是好瓜，让我们通过在这些特征去训练出一个模型，当遇见一个新的西瓜时，我们可以通过这个模型去预测是否是好瓜。

基础术语

在机器学习中数据集非常重要，有了数据集我们才可以训练模型。

首先就是数据集包括哪些东西，数据集是由许多不同的样本集合构成的，每一条数据也称为“示例（instance）”或者“样本(sample)”。

而样本是对象在某方面的表现或者特征的事项，例如一个西瓜中的“色泽”“跟蒂”“敲声”都可以将其称为“属性(attribute)”或者“特征(feature)”。

在属性中，比如一个西瓜色泽中的“青绿”“乌黑”，都可以将其称为属性值。属性张成的空间成为“属性空间”“样本空间”或者“输入空间”。

例如，将西瓜的“色泽”“跟蒂”“敲声”作为三个坐标轴，张成一个用于描述西瓜的样本空间，每个西瓜都可以在里面找到自己的位置。在空间中每个点都对应着一个坐标向量，因此也可以将其称为“特征向量(feature vector)”。

维数：在数据集D中，如果说有m个例示数据集由d个属性,每个示例则是样本空间的一个向量，d也被称为是样本的维数。

在训练过程中使用的数据被称为“训练数据(training data)”,其中每一个样本被称为“训练样本(training sample)”，训练样本组合组成的集合称为"训练集"(training set)。在机器不断学习的过程中就是为了找出或接近真相，可以将学习成为”学习器"(learner)。.

要建立这样的关于“预测” （prediction） 的模型，我们需获得训练样本的“结果”信息，例如 “（（色泽= 青绿;根蒂= 蜷缩;敲声=浊响），好瓜）”. 这里关于示例结果的信息，例如 “好瓜”，称为 “标记" （label）; 拥有了标记信息的示例，则称为 “样例" （example）。

如果预测是离散值，例如 “好瓜” “坏瓜”，此类学习任务称为“分类 " (classification); 若欲预测的是连续值，例如西瓜成熟度 0.95 、0.37,此类学习任务称为 “回归” (regression)。

预测任务是希望通过对训练集、进行学习，建立一个从输入空间X到输出空间 y 的映射。

在建立模型之后使用其进行预测的过程称为“测试” (testing), 被预测的样本称为 “测试样本” (testing sample）。

还可以把训练集中西瓜划分为若干组，每组称为一个“簇” (cluster)，这些自动形成的簇可能对应一些潜在的概念划分，这样的学习过程有助于我们了解数据内在的规律。

根据训练数据是否拥有标记信息，学习任务可大致划分为两大类：“监督学习“ (supervised learning) 和 “无监督学习" (unsupervised learning), 分类和回归是前者的代表,而聚类则是后者的代表。

我们也希望学得的簇划分能适用于没在训练集中出现的样本。学得模型适用于新样本的能力，称为 “泛化 " (generalization) 能力.具有强泛化能力的模型能很好地适用于整个样本空间。