1.1 引言
机器学习所研究的主要内容:从数据产生“模型”的算法
1.2 基本术语
数据集(data set):一批关于西瓜的数据
示例(instance)/样本(sample):一个西瓜的描述
特征(feature)/属性(attribute):西瓜的色泽...
特征值/属性值(value):西瓜的色泽=青绿色
样本空间/输入空间:
西瓜的“色泽”“根蒂”“敲声”构成了描述西瓜的三维空间
特征向量:
每个西瓜对应样本空间点的坐标向量
一般,D={x1...xm}表示包含m个示例的数据集
xi={xi1,xi2...xid}表示d维样本空间X的一个向量
学习(learning)/训练(training):
从数据中学得模型的过程
训练数据(training data):
训练过程中使用的数据
训练样本(training sample):
数据中的每个样本
训练集(training set):
训练样本构成的集合
标记(label)
样例(example)
学习器(learner):
假设(hypothesis)接近真相(group-truth)
标记空间/输出空间(label space)
分类(classification):
标记离散
回归(regression):
标记连续
测试(testing)
聚类(clustering):
把训练集分成若干组,每组称为簇(cluster)
监督学习(supervised learning):
分类,回归
无监督学习(unsupervised learning):
聚类
泛化能力(generalization):
适应新样本的能力