机器学习的目标
机器学习致力于研究如何通过计算的手段,利用经验来玫善系统自身的性能。在计算机中,经验通常以数据形式存在,因此,机器学习研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“学习算法”。
基本术语
假定我们收集了一批关于西瓜的数据,例如(色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂:稍蜷;敲声=沉闷), (色泽=浅自;根蒂 硬挺;敲声=清脆),……,每对括号内是一条记录,“=”意思是"取值为"。
这组记录的集合称为一个数据集,其中每条记录是关于一个事件或对象的描述,称为一个 示例或样本。反映事件或对象在某方面的表现或性质的事项,例如“色泽”,称为属性或特征;属性取值例如“青绿”称为属性值;属性张成的空间称为属性空间或样本空间。我们把一个示例也称为一个特征向量。
从数据中学的模型的过程叫做学习或者训练,训练过程中使用的数据称为训练数据,其中每个样本称为训练样本,训练样本组成的集合叫做训练集。
分类:预测的是离散值
回归:预