基本术语
模型: 从数据中学到的结果(泛指)
学习算法: 使用计算机从数据中产生“模型”的算法
属性: 反应事件或对象在某方面的表现或性质的事项
记录: 一组属性对应取值的实例
样本: 每条记录是关于一个事件或对象的描述
数据集: 一组这样的记录或样本称为数据集
属性空间: 一组这样的属性组成的空间我们称为属性空间,或者样本空间(属性值我们可以类比坐标轴上的 x,y,z)
维数: 一组属性的个数
特征向量: 对应坐标轴上的一个点(向量),其实就是一个样本,一条记录
标记: 训练样本的结果信息
下面在来看一下机器学习中另外的一些术语:
假设: 由训练集到模型的一种映射
假设空间: 由训练集到所有模型(样本空间)的所有映射
版本空间: 在实际生活中,我们在假设空间中进行搜索,可能会存在多个假设与训练集一致,这样的多个假设就成为“版本空间”
归纳偏好: 在上述版本空间中,出现了多个假设与训练集一致,这时我们必须选出一个最佳的假设,我们心中这个”最佳的“标准就是我们所说的偏好。
学习/训练: 通过使用之前提到的学习算法,将由训练集获得模型的这个过程;也是在假设空间中进行搜索,找到对应的假设的过程。
监督学习:
无监督学习: 训练数据中不含有标记信息,对于不含标记信息的训练样本,我们也希望可以得到它的模型,对于这种能力我们称之为 “泛化能力”
文中基本术语学习 源自《机器学习》——周志华老师