基本术语
术语
数据集:一组记录的集合被称为数据集
示例(样本):数据集合中的每一个记录被称为一个样本或者示例
属性空间:属性张成的空间
特征向量:一个示例被称作一个特征向量
示例
D={x1,x2,…,xm}
表示包含了m个示例的数据集,
每个示例由d个属性描述,
每个示例
xi=(xi1;xi2;…;xid)
是
d
维样本空间
xi∈χ
,其中
xij
是
xi
在第
j
个属性上的取值,
学习和训练
从数据中学得模型的过程称为“学习”或者“训练”,整个过程通过执行某个学习算法来完成。
训练过程中使用的数据被称为“训练数据”,其中每一个样本被称为一个“训练样本”,训练样本组成的集合被称为“训练集”。
假设
学得模型对应了数据的某种潜在的关系,因此也称为假设
真相或真实
潜在规律的自身,被称为真相或者真实
离散和分类,连续与回归
如果预测的是离散值,则此类的学习任务被称为“分类”
如果预测的是连续值,则此类的学习任务被称为“回归”
监督学习和无监督学习
监督学习:
分类和回归都是监督学习
无监督学习:
聚类
假设空间
归纳
归纳是从特殊到一般,是一种“泛化”的过程
演绎
演绎是从一般到特殊,是一种“特化”的过程