机器学习基本术语
基本术语
训练数据
- 数据集;训练;测试:①数据的集合就称为数据集,例如上图所示的蓝色行头的表格,就是判断西瓜好坏的数据集。②由训练数据总结规律、得到模型的过程就称为训练。③得到模型后,使用不同于训练数据的新数据来检测模型的质量或者得出结果的过程就称为测试。
- 示例;样例;样本:①例如在蓝色行标的表格中,某一行数据但是不包括最后对好瓜/坏瓜的判定,就称为示例。②比起示例,包括最后对好瓜/坏瓜的判定,就称为样例。③某一行数据或者整个数据集都可以称为样本。
- 属性、特征;属性值:①例如在蓝色行标的表格中,色泽、根蒂、敲声则称为属性或特征。②表格中,青绿、蜷缩则称为属性值。
- 属性空间、样本空间、输入空间;特征向量;标记空间、输出空间:如下图所示。
模型
- 假设:通过训练数据总结出的规律、得到的模型,称为假设。
- 真相:实际的结果,可能与模型得出的相同或不同。
- 学习器:从训练数据到模型的训练过程,称为学习器。
结果
- 分类;回归:①对离散结果的输出,称为分类。包括二分类(比如,西瓜好坏的判断),多分类;正类,反类。
测试
- 未见样本:模型训练好后,要具备不仅能够处理训练数据,还要有处理未知数据的能力。我们称未知的数据为未见样本。
- 未知“分布”:在处理未知数据时,我们并不知道未见样本的分布,我们称这为未知“分布”。
- 独立同分布:机器学习的大前提就是,认为某范围的所有数据都是独立的,遵循独立频率。并且认为它们是同一种分布类型。所以能够从数据样本中抽取数据,来总结出规律、训练出模型,才能够处理未知的数据。
- 泛化:通俗来讲就是广泛地适用的能力,是指模型对未知数据适用的能力。
以上就是本文的全部内容,感谢大家的阅读与支持!