《西瓜书》阅读笔记——第一章

最新推荐文章于 2022-11-21 13:18:09 发布

Shannon_Lau

最新推荐文章于 2022-11-21 13:18:09 发布

阅读量242

点赞数

分类专栏：吃瓜笔记文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/Morphine_/article/details/125280286

版权

吃瓜笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

第一章

1.1 基本术语

(色泽=青绿；根蒂=蜷缩；敲声=浊响)，
(色泽=乌黑；根蒂=稍蜷；敲声=沉闷)，
(色泽=浅白；根蒂=硬挺；敲声=清脆)，...

数据集（data set）：上述记录的集合。
示例（instance）、样本（sample）：每条记录关于事件或对象（这里是西瓜）的描述。
属性（attribute）、特征（feature）：反映事件或对象在某方面的的表现或性质的事项，如“色泽”、“根蒂”、“敲声”。
属性值（attribute value）：属性上的取值，如“青绿”、“乌黑”。
属性空间（attribute space）、样本空间（sample space）、输入空间（input space）：属性张成的空间。如：把“色泽”、“根蒂”、“敲声”作为三个坐标轴，则他们张成一个用于描述西瓜的三维空间，每个西瓜都可以在这个空间中找到自己的坐标位置。
特征向量（feature vector）：由于空间中的每个店对应一个坐标向量，因此我们也把一个示例称为一个特征向量。

一般地，令 $D=\{x_1,x_2,...x_m\}$ 表示包含 $m$ 个示例的数据集。

每个示例由 $d$ 个属性描述, $d$ 称为样本 $x_i$ 的**“维数”（dimensionality）**

每个示例 $x_i=(x_{i1};x_{i2};...;x_{id})$ 是d维样本空间 $X$ 中的一个向量， $x_i\in X$

其中 $x_{ij}$ 是 $x_i$ 在第 $j$ 个属性上的取值。（如：上述第3个西瓜在第2个属性上的值 $x_{32}=硬挺$ ）

学习（learning）、训练（training）：从数据中学的模型的过程，该过程通过执行某个学习算法来完成。
训练数据（training data）：训练过程中使用的数据。
训练样本（training sample）：训练数据中的每一个样本称为一个。
训练集（training set）：训练样本组成的集合。
假设（hypothesis）：学的模型对应了关于数据的某种潜在规律。
真相、真实（ground-truth）：这种潜在规律自身，学习的过程就是为了找出或逼近真相。
学习器（learner）：本书有时将模型称为学习器，可以看做学习算法在给定数据和参数空间上的实例化。

为了判断没有切开的瓜是不是好瓜，建立**预测（prediction）**的模型，我们需要获得训练样本的“结果”。

例如：((色泽=青绿；根蒂=蜷缩；敲声=浊响)，好瓜)。

标记（label）：关于示例的信息，即“好瓜”。
样例（example）：拥有了标记信息的示例。

一般地，用 $x_i,y_i)$ 表示第 $i$ 个样例，其中 $y_i \in Y$ 是示例 $x_i$ 的标记， $Y$ 是所有标记的集合，称为标记空间（label space）或输出空间（output space）。

请添加图片描述

分类（classification）：离散值
回归（regression）：连续值
二分类（binary classification）：两个类别，其中一个类为正类（positive class），另一个称为反类（negative class）或负类。
多分类（multi-class classification）：涉及多个类别。

一般地，预测任务是通过对训练集 ${(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}$ 进行学习，建立一个从输入空间 $X$ 到输出空间 $Y$ 的映射$ f:X \to Y$。

对于二分类： $Y=\{-1，+1\}$ 或 ${0,1\}$ ；

对于多分类：$\abs{Y} \gt 2 $；

对于回归任务： $\in R ,R为实数集$ 。

测试（testing）：学的模型行后，使用其进行预测的过程。
测试样本（testing sample）：被预测的样本。

如：学得 $f$ 之后，对测试例 $x$ ，可得到预测标记 $y = f (x)$

聚类（clustering）：将训练集中的西瓜分成若干组。
簇（cluster）：每一组。

这些自动生成的簇可能对应一些潜在的概念划分，如：“浅色瓜”、“本地瓜”。这样的学习过程有助于我们了解数据内在的规律，能更深入的分析数据建立基础。

重要的是：在聚类学习的过程，我们不知道他会根据什么概念划分，即不知道“浅色瓜”、“本地瓜”这样的概念，且学习的过程中使用的训练样本通常不拥有标记信息。

学习任务类型

机器学习的目标

使学得的模型能很好的适用于“新样本”，而不仅仅在训练样本上工作的很好。

泛化能力（generalization）：学得模型适用于新样本的能力。

具有强泛化能力的模型能很好地适用于整个样本空间，训练集虽然是样本空间的一个很小的采样，我们任然希望它能很好地反应出样本空间的特性。

我们通常假设样本空间中全体赝本服从一个未知**“分布”（distribution） $D$ ，我们获得的每个样本都是独立同分布（independent and identically distribution，简称 i,i,d）**.

一般而言，训练样本越多，关于 $D$ 的信息越多，越有可能通过学习获得具有强泛化能力的模型。

1.2 假设空间

科学推理的两大基本手段：
1. 归纳（induction）
  
  从特殊到一般的“泛化”（generalization）过程，从具体事实归结出一般规律。
  
  ep：“从样例中学习”显然是一个归纳的过程，因此亦称为“归纳学习”（inductive learning）
2. 演绎（deduction）
  
  从一般到特殊的“特化”（specialization）过程，从基本原理推演出具体状况。
  
  ep：基于一组公理和推理规则推导出与之相洽的定理，这是演绎。

请添加图片描述