吃瓜教程——第1,2章

Lomi222

已于 2022-05-17 23:16:46 修改

阅读量344

点赞数

文章标签：机器学习

于 2022-05-17 22:50:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Lomi222/article/details/124825776

版权

第1章：绪论

1.2基本术语

一批西瓜的数据：

(色泽=青绿;根蒂=蜷缩;敲声=浊响)，

(色泽=乌黑;根蒂:稍蜷;敲声=沉闷)，

(色泽=浅白;根蒂硬挺;敲声=清脆)，

……

每对括号内代表一条记录， “=”意思是"取值为"。每条记录是关于一个事件或对象(这里是一个西瓜)的描述，称为一个"示例" (instance) 或"样本" (sample)，用以反映事件或对象在某方面的表现或性质的事项。

例如

"属性" (attribute) 或"特征" (feature) ："色泽"；"根蒂" ；"敲声"。

"属性值" (attribute value)即属性上的取值："青绿"； "乌黑"；"浅白“。

这组记录的集合称为一个"数据集" (data set)。

以"色泽" "根蒂" "敲声"作为三个坐标轴，把它们张成一个用于描述西瓜的三维空间，每个西瓜都可在这个空间中找到自己的坐标位置，这由属性张成的空间称为"属性空间" (attribute space) 、"样本空间" (sample space) 或"输入空间".

由于空间中的每个点对应一个坐标向量，因此我们也把 一个示例称为一个 "特征向量" (feature vector)。

D = { x1,x2...xm}，表示包含 m个示例的数据集，

每个示例由 d 个属性描述(例如上面的西瓜数据使用了3 个属性)，

每个示例 xi = (xi1; xi2; . . . ; xid) 是 d 维样本空间 X 中的一个向量，xi∈ X ;.

其中 xij 是xi在第 j个属性上的取值(例如上述第3个西瓜在第2 个属性上的值是"硬挺" ),

d 称为样本xi的"维数" (dimensionality)。

通过执行某个学习算法从数据中学得模型的过程称为"学习" (lear ning) 或"训练" (training)。

训练过程中使用的数据称为"训练数据" (training data)，

其中每个样本称为一个"训练样本" (training sample)。

训练样本组成的集合称为"训练集" (training set)。

学得模型对应了关于数据的某种潜在的规律，因此亦称"假设" (hypothesis);

这种潜在规律自身，则称为"真相"或"真实" (ground-truth) ，学习过程就是为了找出或逼近真相。

本书有时将模型称为"学习器" (learner) ，可看作 学习算法在给定数据和参数空间上的实例化。

要建立这样的关于"预测" (prediction) 模型，我们需获得训练样本的 "结果" 信息，

例如" ((色泽:青绿;根蒂=蜷缩; 敲声=浊响)，好瓜)" .

这里关于示例结果的信息，"好瓜"，称为"标记" (label);

拥有了标记信息的示例，则称为"样例" (example)。

(xi,yi) 表示第i个样例其中 yi∈ Y是示例 xi 的标记,

Y是所有标记的集合，亦称"标记空间" (label space)或"输出空间

若我们欲预测的是离散值，例如"好瓜" "坏瓜"，此类学习任务称为 "分类" (classification);

若欲预测的是连续值,例如西瓜成熟度 0.95 0.37,此类学习任务称为"回归" (regression).

对只涉及两个类别的"二分类" (binary classification) 任务，通常称其中一个类为 "正类" (positive class),另一个类为"反类" (negative class);

涉及多个类别时，则称为"多分类" (multi-class classification）任务。

一般地，预测任务是希望通过对训练集{( x 1， y 1) , ( x 2 , y 2) ,..., ( x m, y m)} 进行学习，

建立一个从输入空间 X

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
吃瓜教程——第1,2章

吃瓜笔记
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。