机器学习(一)(基本概念的梳理)(西瓜书学习笔记)

一批西瓜的数据:

A1(色泽=青绿;根蒂=蜷缩;敲声=浊响)

A2(色泽=乌黑;根蒂=稍蜷;敲声=沉闷)

A3(色泽=浅白;根蒂=硬挺;敲声=清脆)

A1+A2+A3叫做数据集(data set)

以A1为例:

A1叫做样本(sample)/示例(instance)

A1中的“色泽”叫做属性(attribute)

A1中的“青绿”叫做属性值(attribute value)

以这个数据集为例,由色泽、根蒂和敲声这三个属性组成,而这三个属性张成的一个三维空间就叫做属性空间(attribute space)

由于空间中的每一个点对应一个坐标向量,因此我们把一个示例(instance)叫做一个特征向量(feature vector)

 

一般地,用(\mathit{\textbf{x}}_{i},y_{i})表示第i个样例,其中,y_{i}\iny是示例\mathit{\textbf{x}}_{i}的标记,y是所有标记的集合,也叫作标记空间(label space)或输出空间

分类(classification):预测的是离散值,例如“好瓜”、“坏瓜”,特别地,对只涉及两个类别的“二分类(binary classification)”,通常其中一个称为“正类(positive class)”,另一个叫做“反类(negative class)”。涉及多个类时,则称为“多分类(multi-class classification)

回归(regression):预测的是连续值,;例如西瓜的成熟度0.95、0.36等

 

学习模型后,使用其进行预测的过程叫做测试(testing),被测试的样本叫做测试样本(testing sample)

对西瓜做聚类(clustering),即将训练集中的西瓜分成若干组,每个组称为一个簇(cluster);这些自动形成的簇可能对应一些潜在的概念的划分,例如“本地瓜”、‘外地瓜’等,且这样的概念我们事先是不知道的,而且学习过程中使用的训练样本不能拥有标记信息。

根据训练数据是否拥有标记,可将学习任务分为两大类:“监督学习(supervised learning)(eg.分类和回归)”和“无监督学习(unsupervised learning)(eg.聚类)”

学得模型适用于新样本的能力称为泛化(generalization)能力

 

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值