读周志华《机器学习》第一章有感（白话总结）

An efforter

已于 2022-04-11 20:57:40 修改

阅读量1.6k

点赞数

文章标签：机器学习

于 2022-04-09 22:17:15 首次发布

本文链接：https://blog.csdn.net/qq_40694323/article/details/124057871

版权

第一章绪论

1、引言

2.基本术语

1).解释了y=f(x)的对应机器学习关系以及专业名词

虽然这篇博客表面写的乱七八糟的，但是认真要看内容。我也是不会到会的过程，争取每个点都弄懂，这才叫学习。

第一章绪论

1、引言

很简单，主要掌握两个问题。

在平时生活着我们是怎么判断西瓜好坏，根据颜色、根蒂、拍拍听响。

1. 为什么色泽青绿、根蒂蜷缩、敲声浊响，就能判断出是正熟的好瓜？

因为我们吃过、看过很多西瓜,所以基于色泽、根蒂、敲声这几个特征我们就可以做出相当好的判断。类似的,我们从以往的学习经验知道,下足了工夫、弄清了概念、做好了作业,自然会取得好成绩.可以看出,我们能做出有效的预判，是因为我们已经积累了许多的经验，而通过对经验的利用,就能对新情况做出有效的决策。

在机器学习中，我们把色泽青绿、根蒂蜷缩、敲声浊响因素看成 x 自变量，在 y= f（x)中，y因变量就是作为一个结果，就是西瓜好不好的结果。我们机器学习就是根据已知的量，去找出这个f (x)。

2.上面对经验的利用是靠我们人类自身完成的.计算机能帮忙吗?

机器学习正是这样一门学科，它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能.在计算机系统中，“经验”通常以“数据”形式存在。因此，机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型”(model)的算法，即“学习算法”(learning algorithm)，有了学习算法，我们把经验数据提供给它，它就能基于这些数据产生模型；在面对新的情况时(例如看到一个没剖开的西瓜)，模型会给我们提供相应的判断(例如好瓜)。如果说计算机科学是研究关于“算法”的学问，那么类似的，可以说机器学习是研究关于“学习算法”的学问。

2.基本术语

1).解释了y=f(x)的对应机器学习关系以及专业名词

在机器学习中，我们就是在x到y的映射，怎么学习？从x自变量与y因变量中学习，学习到 f()把x，y组成的集合叫做数据集。这里比较抽象，比如说数据集中有10个西瓜，每一个瓜记录它的

色泽=青绿；根蒂=蜷缩；敲声=浊响)，(色泽=乌黑；根蒂=稍蜷；敲声=沉闷)，(色泽=浅白;根蒂=

硬挺;敲声=清脆)，………，根据这些记录下是好瓜还是坏瓜。对这个几个瓜进行学习，把经验

给总结出来，这就是一个学习得出模型。这里说的10个瓜组成的集合就是数据集。

每一个记录的对象（每一个西瓜记录）称为 “实例”。

色泽、根蒂、敲声称为“属性”或“特征”。（色泽：属性==青绿：属性值）

例如“青绿”“乌黑”。称为“属性值”。

属性张成的空间称为“属性空间”(attribute space)、“样本空间”(sample space)或“输入空间”。

有三个属性，就是三维的属性空间，有四个属性，那就是四维的属性空间。。。。。

因为我们要把这些因素，放在计算机中运行，所以就建立了数学思想。以下进行描述详解：

针对X自变量的定义：

从数据学得模型的过程称为“学习”或者“训练”。

训练过程中使用的数据称为“训练数据”。

其中每一个训练样本称为“训练样本”。

训练样本组成的的集合称为“训练集”。

针对Y因变量的定义：

如果希望学得一个能帮助我们判断没剖开的是不是“好瓜”的模型,仅有前面的示例数据显然是不够的.要建立这样的关于“预测”(prediction)的模型,我们需获得训练样本的“结果”信息，例如“((色泽=青绿;根蒂=蜷缩;敲声=浊响)，好瓜)”。

这里关于示例结果的信息，例如“好瓜”,称为“标记”(label)。

拥有了标记信息的示例,则称为“样例”(example)。

2).进一步深化

若我们欲预测的是离散值，例如“好瓜”“坏瓜”，此类学习任务称为“分类”(classification)；若欲预测的是连续值，

例如西瓜成熟度0.95、0.37，此类学习任务称为“回归”(regression)。

对只涉及两个类别的“二分类”(binary classification)任务，通常称其中一个类为“正类”(positive class)，另一个类为“反类”(negative class)；

涉及多个类别时，则称为“多分类”(multi-class classification)任务。

什么叫回归？

简单的说，我拿到了一些数据点，得到了一定的规律，新来一个x变量知道y因变量。如下图

我们上面学习到模型了，接下来进行测试：

另一种情况，根据西瓜为例，瓜农已经给我们分好了，好瓜与坏瓜，但是还有很多个不好分，而且在没有标签的去情况下。引入另一个概念：聚类（完全根据 x 进行分类）。

这里就产生一种区别：分类与聚类。

分类与聚类都是一种把数据集进行分类，分类是瓜农根据经验分好了的，好瓜与坏瓜。有x，y值。而聚类是不知道y值，只跟据一些属性x值进行分类。（我已经明白了，不明白回去再看）

根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:“监督学习”(supervised learning)和“无监督学习”(unsupervised learning)，分类和回归是前者的代表,而聚类则是后者的代表.

3).这一小节的结论概念

需注意的是,机器学习的目标是使学得的模型能很好地适用于“新样本”，而不是仅仅在训练样本上工作得很好;即便对聚类这样的无监督学习任务,我们也希望学得的簇划分能适用于没在训练集中出现的样本。学得模型适用于新样本的能力，称为“泛化”(generalization)能力。（好的模型具有强泛化能力，就像我们平时做过的题，遇到类似的也会，举一反三地能力）

每个样本都是独立地从这个分布上采样获得的，称为独立同分布。（这里就好比模型是西瓜，你来一个橘子肯定不适合）

3.假设空间

归纳(induction)与演绎(deduction)是科学推理的两大基本手段.前者是从特殊到一般的“泛化”(generalization)过程，即从具体的事实归结出一般性规律；后者则是从一般到特殊的“特化”(specialization)过程，即从基础原理推演出具体状况。

例如,在数学公理系统中,基于一组公理和推理规则推导出与之相洽的定理,这是演绎;

而“从样例中学习”显然是一个归纳的过程,因此亦称“归纳学习”(inductive learning).

我们把这个过程看作是一个在所有假设(hypothesis)组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”(fit)的假设，即能够将训练集中的瓜判断正确的假设.假设的表示一旦确定，假设空间及其规模大小就确定了。

介绍一下这个4*3*3+1=37, 这里就是假设空间，发生地可能性都在这里，

色泽是3中颜色+随意=4，根蒂2种+随意=3，敲声2种+随意=3，不存在好瓜地定于空集1。

4.归纳偏好：

简单的说，算法更加偏向于那一块属性，决定是好坏瓜。（我自己比较偏好敲声）

我们这种偏好不能够准确，那么，有没有一般性的原则来引导算法确定“正确的”偏好那？

答案是：引进了一个“奥卡姆剃刀”，奥卡姆剃刀是一种常用的、自然科学研究中最基本的原则，即 “若有多个假设与观察一致,则选最简单的那个”果采用这个原则,并且假设我们认为“更平滑”意味着“更简单”。

事实上，归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设，在具体的显示问题中，这个假设是否成立，即算法的归纳偏好是否与问题本身匹配，大多数时候直接决定了算法能否取得好的性能。我们选择哪一种归纳偏好，就会产生对应的模型，产生一个学习算法。由此来看就会产生好多的算法，我也不知道哪一种算法好，哪一种算法的泛化能力强（学得模型适应于新样本的能力）以下对于算法进行简短的讨论：