西瓜书学习笔记--第一章绪论

Dove_Dan

已于 2022-05-17 20:28:52 修改

阅读量487

点赞数 3

分类专栏：西瓜书笔记文章标签：学习机器学习

于 2022-05-16 17:55:30 首次发布

本文链接：https://blog.csdn.net/Dove_Dan/article/details/124804727

版权

西瓜书笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

第一章绪论

1.1 引言

做出有效预判的前提是经验的积累，经验可以使我们对新情况做出有效的预测
机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能
计算机中经验通常以数据形式存在
机器学习研究的主要内容：在计算机上从数据中产生模型（model）的算法，即学习算法(learning algorithm)
将经验数据提供给学习算法，它就能基于这些数据产生模型
机器学习的形式化定义：假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能改善，则我们就说关于T和P，该程序对E进行了学习。
- 例：
  - 任务T：让计算机识别菊花和玫瑰花
  - 经验E：一大堆菊花和玫瑰花的图片
  - 性能指标P：识别率(Recognition Rate )(不同算法的P是不相同的)
- 例：
  - 任务T：设计程序让机器人冲咖啡
  - 经验E：机器人多次尝试的行为和这些行为产生的结果
  - 性能指标P：在规定时间内成功冲好咖啡的次数
- E和P是由设计算法的人决定的，没有标准答案
计算机科学是研究关于算法的学问\Rightarrow机器学习是研究关于学习算法的学问
西瓜书用模型泛指从数据中学得的结果，也有文献用模型指全局性结果，用模式指局部性结果

1.2 基本术语

数据集(data set)：一组数据记录的集合
示例(instance)/样本(sample)：数据集中的一条关于一个事件或对象的描述的记录（有时整个数据集也课称为一个样本，此时看作是对样本空间的一个采样）
属性(attribute)/特征(feature)：反映事件或对象在某方面的表现或性质的事项，如“色泽”，“根蒂”，“敲声”
属性值(attribute value)：属性上的取值，如“青绿”，“乌黑”
属性空间(attribute space)/样本空间(sample space)/输入空间：属性张成的空间
特征向量(feature vector)：某个示例在属性空间中对应的坐标向量
- 例：把“色泽”，“根蒂”，“敲声”作为三个坐标轴，张成了一个用于描述西瓜的三维空间，每个西瓜都能在这个空间中找到自己的坐标位置，即对应一个坐标向量，此坐标向量就是特征向量
definition：一般地，令 $D=\{\bf{x_1},x_2,...,x_m\}$ 表示包含m个示例的数据集，每个示例由d个属性描述，则每个示例 ${\bf{x_i}}=(x_{i1};x_{i2};...;x_{id})$ 是d维样本空间 $\chi$ 中的一个向量， $x_i\in\chi$ ，其中 $x_{ij}$ 是 $\bf{x_i}$ 在第j个属性上的取值，d称为样本 $\bf{x_i}$ 的维数(dimensionality)
学习(learning)/训练(training)：从数据中学得模型的过程
训练数据(training data)：训练过程中使用的数据
训练样本(training sample)：训练过程的每个样本
训练集(training set)：训练样本组成的集合
假设(hypothesis)：学得模型对应的关于数据的某种潜在的规律
真相/真实(ground-truth)：潜在规律自身
学习过程就是为了找出或逼近真相
学习器(learner)：模型的别称，可看作学习算法在给定数据和参数空间上的实例化
学习算法通常有参数需设置，使用不同的参数值或训练数据，将产生不同的结果
标记(label)：关于示例结果的信息，如"好瓜"
样例(example)：有了标记信息的示例，一般地，用 $({\bf{x_i}},y_i)$ 表示第i个样例，其中 $y_i\in \bf{y}$ 是示例 $\bf{x_i}$ 的标记， $\bf{y}$ 是所有标记的集合，也称为"标记空间"(label space)或“输出空间”
预测结果是离散值的学习任务称为“分类”(classification)，预测结果是连续值的学习任务称为“回归”(regression)
只涉及两个类别的为二分类任务，其中一个类为正类(positive class)，另一个类为反类(negative class)，涉及多个类别时，称为多分类任务(multi-class classification)
一般地，预测任务是希望通过对训练集 $\{({\bf{x_1}},y_1),({\bf{x_2}},y_2),...,({\bf{x_m}},y_m),\}$ 进行学习，建立一个从输入空间X到输出空间Y的映射 $f:X\rightarrow Y$ 。对二分类任务，通常令 $Y=\{-1,+1\}$ 或 $\{0,1\}$ ，对多分类任务，|Y|>2；对回归任务， $Y=\mathbb{R}$ ， $\mathbb{R}$ 为实数集。
测试(testing)：学得模型后，使用其进行预测的过程
测试样本(testing sample)：被预测的样本
聚类(clustering)：将训练集中的西瓜分成若干组，每组称为一个簇(cluster)，自动形成的簇可能对应一些潜在的划分，如“浅色瓜”，“深色瓜”，“本地瓜”，“外地瓜”
在聚类学习中，“浅色瓜”，“本地瓜”这样的概念我们事先是不知道的
训练数据是否有标记信息
- 有：监督学习(supervised learning)，代表：分类、回归
- 无：无监督学习(unsupervised learning)，代表：聚类
泛化能力(generalization)：学得模型适用于新样本的能力
具有强泛化能力的模型能很好地适用于整个样本空间
通常假设样本空间中全体样本服从一个未知“分布”(distribution)D，我们获得的每个样本都是独立地从这个分布上采样获得的，即“独立同分布”(independent and identically distributed，简称i.i.d)
一般而言，训练样本越多，我们得到的关于D的信息越多，这样就越有可能通过学习获得具有强泛化能力的模型（也就是说，数据越多越好）

1.3 假设空间

归纳(induction)：从特殊到一般的泛化(generalization)过程，即从具体的事实归结出一般性规律
演绎(deduction)：从一般到特殊的特化(specialization)过程，即从基础原理推演出具体情况
- 例：基于一组公理和推理规则推导出与之相洽的定理
从样例中学习显然是一个归纳过程，也称为归纳学习(inductive learning)
广义归纳学习相当于从样例中学习
狭义归纳学习要求从训练数据中学得概念(concept)，也称为“概念学习”或“概念形成”
- 该领域目前研究、应用都较少，因为要学得泛化性嗯那个好且语义明确的概念太困难，现实常用的技术大多是产生“黑箱”模型
- 概念学习中最基本的是布尔概念学习
学习过程是一个在所有假设(hypothesis)组成的空间中进行搜索的过程，搜索目标是找到与训练集匹配的假设
假设的表示一旦确定，假设空间及其规模大小就确定了
版本空间(version space)：一个与训练集一致的“假设集合”，即满足好瓜的条件的假设的集合

1.4 归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好，称为“归纳偏好”(inductive bias)，简称为“偏好”
任何一个有效的机器学习算法必有其归纳偏好，否则将无法产生确定的学习结果
奥卡姆剃刀(Occam's razor)：若有多个假设与观察一致，则选最简单的那个
对于一个学习算法 $\varepsilon_a$ ，若它在某些问题上比学习算法 $\varepsilon_b$ 好，则必然存在另一些问题，在那里 $\varepsilon_b$ 比 $\varepsilon_a$ 好
公式略（看不懂
没有免费午餐定理(No Free Lunch Theorem, NFL定理)：所有学习算法的期望性能都跟随机胡猜差不多
NFL定理的重要前提：所有“问题”出现的机会相同，或所有问题同等重要（但实际情形并非如此
脱离具体问题，空谈“什么学习算法更好”毫无意义
要谈论算法的相对优劣，必须要针对具体的学习问题，学习算法自身的归纳偏好与问题是否相匹配，往往会起到决定性作用

1.5 发展历程

1.6 应用现状

1.7 阅读材料

补充

根据训练集求所对应的版本空间的方法：
1. 写出假设空间：先列出所有可能的样本点（即特征向量）
2. 对应着给出的已知数据集，将与正样本不一致的、与负样本一致的假设删除
3. 所剩的假设集合即为版本空间

Dove_Dan

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
西瓜书学习笔记--第一章绪论

第一章绪论1.1 引言做出有效预判的前提是经验的积累，经验可以使我们对新情况做出有效的预测机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能计算机中经验通常以数据形式存在机器学习研究的主要内容：在计算机上从数据中产生模型（model）的算法，即学习算法(learning algorithm) 将经验数据提供给学习算法，它就能基于这些数据产生模型机器学习的形式化定义：假设用P来评估计算机程序在某任务类T上的性能，若一个程序
复制链接

扫一扫