数据集(由多组具有相同属性的示例的记录集合):
示例:关于一个事件或对象的描述的记录。例如,西瓜、芒果、菠萝。
特征(属性):反映事件或对象在某方面的表现或性质的事项。例如,西瓜的色泽、根蒂、敲声。
属性值:属性上的取值。例如,西瓜色泽有青绿,乌黑。
属性空间:属性张成的空间。例如,西瓜的三种属性(色泽、根蒂、敲声)作为坐标轴组成的三维空间。
纬数:示例中包含特征(属性)的个数。
学习(训练):从数据中学得模型的过程
学习方法(两种):
监督学习:通过已有样本特征的训练集去训练的到最优的测试集
两种方式:
1.分类(离散值):例如,好瓜,坏瓜。
2.回归(连续值):例如,西瓜的成熟度0.95 0.32
无监督学习:没有训练样本,数据集没有明确的特征,需直接建模探索出特征
一种方式:
聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。