西瓜书学习笔记--基本术语

基本术语

西瓜数据集样例:
(色泽=青绿;根蒂=蜷曲;敲声=浊响)
(色泽=乌黑;根蒂=稍蜷;敲声=沉闷)
(色泽=浅白;根蒂=硬挺;敲声=清脆)…

  • 数据集: 这组记录的集合称为数据集
  • 示例或样本:其中每条记录是关于一个事件或对象的描述,称为一个示例或样本,也成为特征向量
  • 属性或特征:例如”色泽“,”根蒂“,”敲声“称为属性或特征
  • 属性值:属性上的取值
  • 属性空间:属性张成的空间称为属性空间、样本空间或输入空间

    一般地,令D={x1,x2,…,xm}表示包含m个示例的数据集,每个示例由d个属性描述,则每个示例xi=(xi1,xi2,…,xid)是d维样本空间X中的一个向量,xi属于X,其中xij是xi在第j个属性上的取值,d称为样本xi的”维数“。

 

  • 学习或训练:从数据中学得模型的过程称为学习或训练,这个过程通过执行某个学习算法来完成
  • 训练数据:训练过程中使用的数据称为训练数据
  • 训练样本:训练数据中的每个样本称为训练样本
  • 训练集:训练样本组成的集合称为训练集
  • 假设:学得模型对应了关于数据得某种潜在得规律,因此亦称为假设
  • 真相或真实:这种潜在规律自身,则称为真相或真实




((色泽=青绿;根蒂=蜷曲;敲声=浊响),好瓜)

  • 标记:关于示例结果的信息,例如”好瓜“,称为”标记“
  • 样例:拥有了标记信息的示例,则称为样例
  • 标记空间:一般的,用(xi,yi)表示第i个样例,其中yi属于Y是示例xi的标记,Y是所有标记的集合,亦称标记空间或输出空间

  • 分类:若我们欲预测的是离散值,例如好瓜、坏瓜,此类学习任务称为分类
  • 回归:若欲预测的是连续值,例如西瓜的熟度0.95,0.37,此类学习任务称为回归
  • 二分类任务:只涉及两个类别的分类任务,通常其中一个类称为”正类“,另一个类称为”反类“;
  • 多分类任务:涉及多个类别的分类任务

    一般的,预测任务是希望通过对训练集{(x1,y1),(x2,y2),…,(xm,ym)}进行学习,建立一个从输入空间X到输出空间Yde映射 f:X->Y .对二分类任务,通常Y属于{-1,+1}或{0,1};对多分类任务,|Y|>2;对回归任务,Y=R,R为实数集

  • 测试:学得模型后,使其进行预测的过程称为测试
  • 测试样本:被测试的样本称为测试样本

根据训练数据是否拥有标记信息,学习任务可大致划分为两类:
  • 监督学习:例如分类和回归
  • 无监督学习:例如聚类

    泛化能力:学得模型适用于新样本的能力,称为泛化能力。

    通常假设样本空间中全体样本服从一个未知”分布“D,我们获得的每个样本都是独立地从这个分布上采样获得的,即”独立同分布“(简称 i.i.d.)一般而言,训练样本越多,我们得到的关于D的信息越多,这样就越可能通过学习获得具有强泛化能力的模型
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值