机器学习（一）（基本概念的梳理）（西瓜书学习笔记）

最新推荐文章于 2022-10-08 21:18:00 发布

weixin_38996229

最新推荐文章于 2022-10-08 21:18:00 发布

阅读量256

点赞数

分类专栏：机器学习文章标签：机器学习术语

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38996229/article/details/83148436

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一批西瓜的数据：

A1（色泽=青绿；根蒂=蜷缩；敲声=浊响）

A2（色泽=乌黑；根蒂=稍蜷；敲声=沉闷）

A3（色泽=浅白；根蒂=硬挺；敲声=清脆）

A1+A2+A3叫做数据集（data set）

以A1为例：

A1叫做样本（sample）/示例（instance）

A1中的“色泽”叫做属性（attribute）

A1中的“青绿”叫做属性值（attribute value）

以这个数据集为例，由色泽、根蒂和敲声这三个属性组成，而这三个属性张成的一个三维空间就叫做属性空间（attribute space）

由于空间中的每一个点对应一个坐标向量，因此我们把一个示例（instance）叫做一个特征向量（feature vector）

一般地，用（ $\mathit{\textbf{x}}_{i}$ , $y_{i}$ ）表示第i个样例，其中， $y_{i}$ $\in$ y是示例 $\mathit{\textbf{x}}_{i}$ 的标记，y是所有标记的集合，也叫作标记空间（label space）或输出空间

分类（classification）：预测的是离散值，例如“好瓜”、“坏瓜”，特别地，对只涉及两个类别的“二分类（binary classification）”，通常其中一个称为“正类（positive class）”，另一个叫做“反类（negative class）”。涉及多个类时，则称为“多分类（multi-class classification）”

回归（regression）：预测的是连续值，；例如西瓜的成熟度0.95、0.36等

学习模型后，使用其进行预测的过程叫做测试（testing），被测试的样本叫做测试样本（testing sample）

对西瓜做聚类（clustering），即将训练集中的西瓜分成若干组，每个组称为一个簇（cluster）;这些自动形成的簇可能对应一些潜在的概念的划分，例如“本地瓜”、‘外地瓜’等，且这样的概念我们事先是不知道的，而且学习过程中使用的训练样本不能拥有标记信息。

根据训练数据是否拥有标记，可将学习任务分为两大类：“监督学习（supervised learning）（eg.分类和回归）”和“无监督学习（unsupervised learning）（eg.聚类）”

学得模型适用于新样本的能力称为泛化（generalization）能力

weixin_38996229

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。