ML系列笔记一：基本概念

最新推荐文章于 2022-11-29 17:09:47 发布

chenhch8

最新推荐文章于 2022-11-29 17:09:47 发布

阅读量456

点赞数

本文链接：https://blog.csdn.net/deepinC/article/details/89308808

版权

这是学习周志华老师《机器学习》的一些重要概念的简要笔记，仅防个人忘记

机器学习所研究的主要内容是“学习算法”，即关于在计算机上从数据中产生“模型”的算法

文章目录

基本术语

属性空间(attribute space) / 样本空间(sample space) / 输入空间：由属性张成的空间。位于该空间的一个实例称为“特征向量(feature vector)”
通过学习算法从数据中学得模型的过程称为“学习”（learning）或者“训练”（training）。学得的模型对应了关于数据的某种潜在的规律，因此称为“假设(hypothesis)”；该潜在规律的自身，则称为“真相”或“真实”(ground-truth)，学习过程即为了找出或逼近真相。所学得的“模型”，亦可称为“学习器”(learner)，可视为学习算法在给定数据和参数空间上的实例化
“分类”(classification) 任务：预测的是离散值
- 二分类(binary classification): 预测的仅涉及两个类别——正类(positive class)+反类(negative class)
- 多分类(multi-class classifiaction)：预测的涉及多个类别
"回归"(regression) 任务：预测的是连续值
“聚类”(clustering)：学习算法自动根据数据的内在规律对数据集进行划分形成若干个“簇”(cluster)
根据训练数据是否拥有标记信息，学习任务可大致分为：监督学习(supervised learning)和无监督学习(unsupervised learning)。分类和回归是前者的代表，聚类是后者的代表
评价所学得模型优劣的重要指标是其 “泛化”(generalization) 能力，即是否适用预新样本的能力。具有强泛化能力的模型能很好地适用于整个样本空间（训练集仅是该样本空间的一个很小的采样）。通常假设样本空间中全体样本服从一个未知“分布” $\mathcal D$ ，每个样本均独立地从该分布上采样获得，即彼此独立同分布(independent and identicallly distributed，简称 $i . i . d$ )。一般而言，训练样本越多，我们得到的关于 $\mathcal D$ 的信息越多，这样就越有可能通过学习获得具有强泛化能力的模型

假设空间

由所有假设(hyothesis)所组成的空间称为假设空间，即可认为是未实例化的待学习的所有可能模型所组成的空间（即模型参数未确定）。通过学习得到的模型对应了假设空间中的一个假设（即模型参数确定）

科学推理的两大基本手段：
- 归纳 (induction)：从特殊到一般的“泛化”的过程，即从具体事实归结出一般性规律。“从样例中学习”是一个归纳的过程，因此亦称为“归纳学习”(induction learning)，它具有狭义和广义之分，广义的归纳学习大体相当于从样例中学习，而狭义的归纳学习则要求从训练数据中学得概念(concept)，因此亦称为“概念学习”或“概念形成”，其中最基本的便是布尔概念学习，即二分类学习
- 演绎 (deduction)：从一般到特殊的“泛化”过程，即从基础原理推演出具体状况
我们可以把学习过程视为一个在所有假设组成的空间中进行搜索的过程，搜索目标是找到与训练集“匹配”(fit)的假设，即能够将训练集预测正确的假设(即找到最优参数)。假设的表示一旦确定，假设空间及其规模大小就确定了。注意，显示中的假设空间通常会很大，但学习过程是基于有限样本训练集进行的，因此可能有多个假设与训练集一致，即存在一个与训练集一致的“假设集合”，称为“版本空间”(version space)

归纳偏好

用于解决“版本空间”问题。机器学习算法在学习过程中对某种类型假设的偏好，称为“归纳偏好”（inductive bias）或简称“偏好”。任何一个有效的机器学习算法必有其归纳偏好，否则它无法从“版本空间”中产生确定的学习结果。

归纳偏好可视为算法自身在一个可能很庞大的假设空间中对假设进行选择的启发或“价值观”，而“奥卡姆剃刀”（Occam’s razor）是一种常用的、自然科学中最基本的原则，即“若有多个假设与观察一致，则选择最简单的那个”。但需注意的是，它并非是唯一可行的原则。

事实上，归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设。在具体的现实问题中，这个假设是否成立，即算法的归纳偏好是否与问题本身匹配，大多数时候直接决定了算法能否取得好的性能。需注意的是，不同的问题可能会有不同的归纳偏好。

NFL定理 (No Free Lunch Theorem)：“没有免费的午餐”定理，即所有学习算法的期望性能都跟随机胡猜差不多。该定理的一个重要前提是：所有“问题”出现的机会相同、或所有问题同等重要。但实际情形并非如此。很多时候，我们只关注自己正在试图解决的问题，希望为它找到一个解决方案，至于该方案在别的问题、甚至相似的问题上是否为好方案，我们并不关心。NFL定理告诉我们，脱离具体问题，空泛地谈论“什么学习算法更好”毫无意义，因为若考虑所有潜在的问题，则所有学习算法都一样好。要谈论算法的相对优劣，必须要针对具体的学习问题，学习算法自身的归纳偏好与问题是否匹配，往往会起到决定性的作用

chenhch8

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
ML系列笔记一：基本概念

这是学习周志华老师《机器学习》的一些重要概念的简要笔记，仅防个人忘记机器学习所研究的主要内容是“学习算法”，即关于在计算机上从数据中产生“模型”的算法基本术语属性空间(attribute space) / 样本空间(sample space) / 输入空间：由属性张成的空间。位于该空间的一个实例称为“特征向量(feature vector)”通过学习算法从数据中学得模型的过程称为“学习...
复制链接

扫一扫