笔记（一）机器学习（周志华）第1章绪论（假设空间、版本空间）

最新推荐文章于 2023-08-03 17:13:02 发布

B&&C

最新推荐文章于 2023-08-03 17:13:02 发布

阅读量868

点赞数 1

分类专栏：机器学习（周志华）笔记文章标签：笔记

本文链接：https://blog.csdn.net/lzbmc/article/details/100046802

版权

机器学习（周志华）笔记专栏收录该内容

10 篇文章 6 订阅

订阅专栏

第1章绪论

1. 引言
2. 基本术语
3. 假设空间
4. 归纳偏好

1. 引言

1) 定义

机器学习是一门致力于研究如何通过计算的手段，利用经验（数据）来改善系统自身的性能的学科。

2) 研究的主要内容

在计算机上，从数据中产生“模型”的算法，即“学习算法”。

3) 如何运用

有了学习算法，把经验数据提供给它，它就能基于这些数据产生模型；在面对新的情况时，模型会给出相应的判断。

2. 基本术语

数据集：所有记录的集合
示例/样本：每条记录。有时整个数据集也会看成是一个样本
属性/特征：反映事件或对象在某方面的表现或性质的事项。例如色泽、根蒂、敲声是西瓜的属性。
属性值：属性上的取值。不同对象的属性会有不同的取值。
属性空间/样本空间/输入空间：属性张成的空间。eg：色泽、根蒂、敲声作为三个坐标轴，就可以张成一个描述西瓜的3维空间，就是属性空间。
特征向量：每个样本都可以用空间中的一个点表示，空间中的每个点对应一个坐标向量，所以也把一个样本称为一个特征向量。
维数：数据集中每个样本所具有的特征（属性）数目。
学习/训练：从数据中学得模型的过程。
训练数据：训练过程中使用的数据。
训练样本/训练示例：训练过程中使用的每个样本。
训练集：训练样本组成的集合。
假设：学的模型对应了关于数据的某种潜在的规律。
真相/真实：这种潜在规律
学习器：有时将“模型”成为“学习器”。可以看作学习算法在给定数据和参数空间上的实例化。
标记（label）：对象的类别或者事件的结果。eg：好瓜、坏瓜。
样例：拥有了标记信息的示例（样本和标记组合起来就是样例）。若将标记看作对象本身的一部分，则样例有时也称为样本。
标记空间/输出空间：所有标记的集合。
分类：预测值是离散值。eg：好瓜、坏瓜
回归：预测值是连续值。eg：西瓜的成熟度0.95、0.37。
聚类：基于某种度量将样本分为若干个簇(cluster)，使得同一簇内尽量相似，不同簇间尽量相异。学习过程中使用的训练样本通常不拥有标记信息。
测试：训练完成得到模型后，使用其进行预测的过程。
测试样本：被预测的样本。
根据训练数据是否拥有标记信息，学习任务可大致分为两类：
A. 监督学习：需要标记。eg：分类和回归。
B. 无监督学习：不需要标记。eg：聚类。
泛化能力：学的模型适应新样本的能力。
机器学习目的：使学的模型能更好的适用于“新样本”，不仅仅是在训练样本上表现的好。

3. 假设空间

1) 归纳和演绎

归纳：从特殊到一般的“泛化”过程。从具体事实归结出一般性规律。 “从样例中学习”亦称“归纳学习”
演绎：从一般到特殊的“特化”过程。

2) 假设空间：所有假设的集合。

3) 版本空间

与训练集匹配的假设空间子集。学习过程中，可以不断删除与正例不一致的假设、和（或）与反例一致的假设。最终将会获得与训练集一致（即对所有训练样本能够进行正确判断）的假设，即学得结果。

4) 假设空间规模大小

假设空间：（色泽= ？）∧（根蒂=？）∧（敲声=？）这3个属性的取值均为3
假设空间大小：（3+1）x（3+1）x（3+1）+1=65。括号里的1是除3个属性值外，无论取什么值都合适，用通配符*表示，所以加1；最后的1是没有好瓜的情况。

4. 归纳偏好

1) 定义

在学习过程中对某种类型假设的偏好，简称“偏好”。在多个假设等效时，学习算法会认为某一种假设更优。例如根蒂还是敲声对好瓜的判断更重要，看起来和属性选择，也就是“特征选择”有关。注意：特征选择仍是基于对训练样本的分析进行的。

2) 奥卡姆剃刀：若多个假设与观察一致，则选最简单的那个。

问题：判断哪个假设更简单是不简单的。

3) 没有免费的午餐（NFT）

无论哪种算法，他们的期望性能都相同，就是总误差与学习算法无关。但实际中，我们只考虑正类分布而不考虑负类分布。
前提：所有“问题”出现的机会相同、或所有问题同等重要。
但实际情况不是这样，只关注自己正在试图解决的问题（特定任务）有个好的方案，不考虑此方案对其他问题好不好。

记录自己的学习过程，方便日后查阅，如有不对的地方还请指教！如果你喜欢欢迎点赞、评论\(^o^)/~

B&&C

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
笔记（一）机器学习（周志华）第1章绪论（假设空间、版本空间）

1. 引言1) 定义机器学习是一门致力于研究如何通过计算的手段，利用经验（数据）来改善系统自身的性能的学科。2) 研究的主要内容在计算机上，从数据中产生“模型”的算法，即“学习算法”。3) 如何运用有了学习算法，把经验数据提供给它，它就能基于这些数据产生模型；在面对新的情况时，模型会给出相应的判断。2. 基本术语数据集：所有记录的集合示例/样本：每条记录。有时整个数据集也会看成...
复制链接

扫一扫