【机器学习西瓜书学习笔记】基础内容

最新推荐文章于 2022-10-28 10:16:11 发布

羊肉蛋花汤

最新推荐文章于 2022-10-28 10:16:11 发布

阅读量293

点赞数

分类专栏： Python 机器学习

本文链接：https://blog.csdn.net/weixin_38094405/article/details/106406852

版权

机器学习同时被 2 个专栏收录

9 篇文章 1 订阅

订阅专栏

Python

2 篇文章 0 订阅

订阅专栏

基础内容

基本术语

数据集（data set）：所有记录的集合
示例（instance）/ 样本（sample）/ 特征向量（feature vector）：数据集中的一条记录（关于一个事件或对象的描述）
属性（attribute）/ 特征（feature）：反映事件或对象在某方面的表现或性质的事项
属性值（attribute value）：属性的取值
属性空间（attribute space）/ 样本空间（sample space）/ 输入空间 ：属性张成的空间

学习（learning）/ 训练（training）：从数据中学得模型的过程，通过执行某个学习算法来完成。
训练数据（training data）：训练过程中使用的数据
训练样本（training sample） / 训练示例（training instance）：训练数据中每个样本称为一个训练样本
训练集（training set）: 训练样本组成的集合
测试（testing）：学得模型后，使用其进行预测的过程
测试样本（testing sample）：被用来预测的样本

假设（hypothesis）：学得的模型，对应了数据的某种潜在规律
真相 / 真实（ground-truth）：这种潜在规律自身
标记（label）：关于示例结果的信息
样例（example）：拥有标记信息的示例
标记空间（label space）/ 输出空间：所有标记的集合

分类（classification）：欲预测的是离散值时的学习任务
回归（regression）：欲预测的是连续值时的学习任务
二分类（binary classification）：只涉及两个类别的分类任务，一个类为正类（positive class），一个类为反类（negative class）。
多分类（multi-class classification）：涉及多个类别的分类任务
泛化（generalization）能力：学得的模型适用于新样本的能力

通常假设样本空间中全体样本服从一个“未知”分布，我们获得的每个样本都是独立同分布（i.i.d）的。

假设空间

概念学习是狭义的归纳学习，要求从训练数据中学得概念。研究应用得比较少，现在使用比较多的是“黑箱”模型。

我们可以把学习过程看作一个在所有假设(hypothesis)组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”(fit)的假设, 假设的表示一旦确定, 假设空间及其规模大小就确定了。需注意的是, 现实问题中我们常面临很大的假设空间，但学习过程是基于有限样本训练集进行的, 因此, 可能有多个假设与训练集一致, 即存在着一个与训练集一致的“假设集合”，我们称之为“版本空间”(version space)。

归纳偏好

算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”(inductive bias),或简称为偏好。归纳偏好帮助算法在版本空间中选择出最终的假设。

奥卡姆剃刀”(Occam’s razor)是一种常用的、自然科学研究中最基本的原则，即“若有多个假设与观察一致, 则选最简单的那个”。但按奥卡姆剃刀所得的假设不一定就是最匹配的假设，不同算法的期待性能是相同的，这叫 “没有免费的午餐” 定理(No Free Lunch Theorem,简称NFL）。但该定理有一个前提：所有 “问题” 出现的机会相同、或所有问题同等重要。但实际情形并不是这样。很多时候，我们只关注自己正在试图解决的问题(例如某个具体应用任务)，希望为它找到一个解决方案, 至于这个解决方案在别的问题、甚至在相似的问题上是否为好方案,我们并不关心。

所以，NFL定理最重要的寓意, 是让我们清楚地认识到，脱离具体问题, 空泛地谈论“什么学习算法更好”毫无意义，因为若考虑所有潜在的问题，则所有学习算法都一样好. 要谈论算法的相对优劣, 必须要针对具体的学习问题; 在某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意,学习算法自身的归纳偏好与问题是否相配，往往会起到决定性的作用。

羊肉蛋花汤

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【机器学习西瓜书学习笔记】基础内容

基础内容基本术语数据集（data set）：所有记录的集合示例（instance）/ 样本（sample）/ 特征向量（feature vector）：数据集中的一条记录（关于一个事件或对象的描述）属性（attribute）/ 特征（feature）：反映事件或对象在某方面的表现或性质的事项属性值（attribute value）：属性的取值属性空间（attribute space）/ 样本空间（sample space）/ 输入空间：属性张成的空间学习（learning）/ 训练（
复制链接

扫一扫

专栏目录