一批西瓜的数据:
A1(色泽=青绿;根蒂=蜷缩;敲声=浊响)
A2(色泽=乌黑;根蒂=稍蜷;敲声=沉闷)
A3(色泽=浅白;根蒂=硬挺;敲声=清脆)
A1+A2+A3叫做数据集(data set)
以A1为例:
A1叫做样本(sample)/示例(instance)
A1中的“色泽”叫做属性(attribute)
A1中的“青绿”叫做属性值(attribute value)
以这个数据集为例,由色泽、根蒂和敲声这三个属性组成,而这三个属性张成的一个三维空间就叫做属性空间(attribute space)
由于空间中的每一个点对应一个坐标向量,因此我们把一个示例(instance)叫做一个特征向量(feature vector)
一般地,用(,)表示第i个样例,其中,y是示例的标记,y是所有标记的集合,也叫作标记空间(label space)或输出空间
分类(classification):预测的是离散值,例如“好瓜”、“坏瓜”,特别地,对只涉及两个类别的“二分类(binary classification)”,通常其中一个称为“正类(positive class)”,另一个叫做“反类(negative class)”。涉及多个类时,则称为“多分类(multi-class classification)”
回归(regression):预测的是连续值,;例如西瓜的成熟度0.95、0.36等
学习模型后,使用其进行预测的过程叫做测试(testing),被测试的样本叫做测试样本(testing sample)
对西瓜做聚类(clustering),即将训练集中的西瓜分成若干组,每个组称为一个簇(cluster);这些自动形成的簇可能对应一些潜在的概念的划分,例如“本地瓜”、‘外地瓜’等,且这样的概念我们事先是不知道的,而且学习过程中使用的训练样本不能拥有标记信息。
根据训练数据是否拥有标记,可将学习任务分为两大类:“监督学习(supervised learning)(eg.分类和回归)”和“无监督学习(unsupervised learning)(eg.聚类)”
学得模型适用于新样本的能力称为泛化(generalization)能力