吃瓜教程——第1,2章

第1章 :绪论

 

1.2基本术语

一批西瓜的数据:
(色泽=青绿;根蒂=蜷缩;敲声=浊响),
(色泽=乌黑;根蒂:稍蜷;敲声=沉 闷),
(色泽=浅白;根蒂 硬挺;敲声=清脆),
……

每对括号内代表一条记录, “=”意思是"取值为"。每条记录是关于一个事件或对象(这里是一个西瓜)的描述,称为一个"示例" (instance) 或"样本" (sample),用以反映事件或对象在某方面的表现或性质的事项。

例如

"属性" (attribute) 或"特征" (feature) :"色泽";"根蒂" ;"敲声"。

"属性值" (attribute value)即属性上的取值:"青绿"; "乌黑";"浅白“。

这组记录的 集合 称为一个"数据集" (data set)。
以"色泽" "根蒂" "敲声"作为三个坐标轴,把它们张成 一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置,这由属性张成的空间称为"属性空间" (attribute space) 、"样本空间" (sample space) 或"输入空间".
由于空间中的每个点对应一个坐标向量,因此我们也把 一个示例称为一个 "特征向量" (feature vector)。

D = { x1,x2...xm}, 表示包含 m个示例的数据集,
每个示例由 d 个属性描述(例如上面的西瓜数据使用了3  个属性),
每个示例 xi = (xi1; xi2; . . . ; xid) 是  维样本空间 X 中的一个向量,xi∈ X ;.
其中 xij 是xi在第 j个属性上的取值(例如上述第3个西瓜在第2 个属性上的值是"硬挺" ),
称为样本xi的"维数" (dimensionality)。

通过执行某个学习算法从数据中学得模型的过程称为"学习" (lear ning) 或"训练" (training)。
训练过程中使用的数据称为"训练数据" (training data),
其中每个样本称为一个"训练 样本" (training sample)。
训练样本组成的集合称为"训练集" (training set)。
学得模型对应了关于数据的某种潜在的规律,因此亦称"假设" (hypothesis);
这种潜在规律自身,则称为"真相"或"真实" (ground-truth) ,学习过程就是为了找出或逼近真相。
本书有时将 模型 称为"学习器" (learner) ,可看作 学习算法在给定数据和参数空间上的实例化

要建立这样的关于"预测" (prediction) 模型,我们需获得训练样本的 "结果" 信息,
例如" ((色泽:青绿;根蒂=蜷缩; 敲声=浊响),好瓜)" .
这里关于示例结果的信息,"好瓜",称为"标记" (label);

拥有了标记信息的示例,则称为"样例" (example)。

(xi,yi) 表示第i个样例其中 yi∈ Y是示例 xi 的标记,

Y是所有标记的集合,亦称"标记空间" (label space)或"输出空间

若我们欲预测的是离散值,例如"好瓜" "坏瓜",此类学习任务称为 "分类" (classification);
若欲预测的是连续值,例如西瓜成熟度 0.95 0.37,此类学习任务称为"回归" (regression).
对只涉及两个类别的"二分类" (binary classification) 任务,通常称其中一个类为 "正 类" (positive class),另一个类为"反类" (negative class);
涉及多个类别时,则称为"多分类" (multi-class classification)任务。

一般地,预测任务是希望通过对训练集{( x 1,  y 1) , ( x 2 , y 2) ,..., ( x m, y m)} 进行学习,
建立一个从输入空间 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值