1. 引言
- 机器学习是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,因此机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型(model)”的算法,即“学习算法”。有了学习算法,我们把经验数据提供给他,就能基于这些数据产生模型。因此机器学习是研究“学习算法“的学问。
2.基本术语
- 数据集(data set):这组记录的集合
- 示例或样本(instance):每一条记录,关于一个事件或对象的描述
- 属性或特征(attribute):反映事件或对象在某方面的表现或性质的事项,例如:色泽,根蒂。
- 属性值(arrtribute value):属性上的取值,例如:青绿,乌黑,……
- 属性空间(arrtribute space),样本空间(sample space),输入空间:属性张成的空间
- 学习(learning),训练(training):从数据中学得的模型的过程
- 训练数据(training data):训练过程中使用的数据
- 训练集(training set):训练样本组成的集合
- 假设(hypothesis