第一章 基本术语
1、机器学习的定义:从数据中自动的归纳逻辑或规则,并根据这个归纳的结果与新数据来进行预测的算法。要讨论算法的相对优劣,必须要针对具体的学习问题。
2、目标:使得学得的模型能很好的适用于“新样本”,而不仅仅在训练样本上工作得很好,即便是对聚类这样的无监督学习,也希望学得的聚划分能适用于没在训练集中出现的样本。
3、样本(示例、特征向量): 数据集中的每个记录称之为样本或者示例。
4、属性空间(样本空间、输入空间):样本属性张成的空间称为属性空间(样本空间、输入空间),每个样本对应空间中的一个点,故而一个示例也称为一个“特征向量”。
5、模型:模型也称为学习器,可看作学习算法在给定数据集和参数空间的实例化。
6、学习:从数据中学得模型的过程称为“学习”或“训练”,这个过程通过执行某个学习算法来完成。
7、训练集:训练过程中使用的数据称为训练数据,训练样本组成的集合称为训练集。学得的模型对应了关于数据的某种潜在的规律,因此称为“假设”。这种潜在规律自身,则是称为真相或真实,学习过程就是为了找出或逼近真相。训练集通常是样本空间中很小的一个采样。
8、测试:学得模型后,使用其进行预测的过程称为“测试”,被测试的样本称为测试样本。
监督学习与无监督学习:根据训练数据是否拥有标记信息,学习任务可以分为两类,监督学习和无监督学习:分类和回归是前者的代表,聚类是后者的代表(学习过程中使用的训练样本通常不拥有标记