1.1引言
机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能,在计算机系统中,“经验”通常以“数据”形式存在,因此,机器学习所研究的主要内容,是关于计算机上从数据中产生“模型”的算法,即“学习算法”,有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型,在面对新的情况时,模型会给我们提供相应的判断,如果说计算机科学是研究关于“算法”的学问,那么类似的,可以说机器学习是研究关于“学习算法”的学问。
本博客用“模型”泛指从数据中学得的结果。
1.2基本术语
数据集:比如我们收集了一批关于西瓜的数据,例如(色泽 = 青绿;根蒂 = 蜷缩;敲声 = 浊响),(色泽 = 乌黑;根蒂 =稍蜷;敲声 = 沉闷),(色泽 = 浅白;根蒂 = 硬挺;敲声 = 清脆),其中每条记录是关于一个事件或对象的描述,称为一个”示例“或”样本“;
一般地,令D = {x1,x2,......xm}表示包含m个示例的数据集,每个实例由d个属性描述,则每个示例xi = (xi1,xi2,......xid)是d维样本空间**α**中的一个向量,xi∈α,其中xij是xi在第j个属性上的取值,d称为样本xi的”维数“;
从数据中学得模型的过程称为”学习“或”训练“,这个过程通过执行某个学习算法来完成,训练过程中使用的数据称为”训练数据“,其中每个样本称为一个”训练样本“,训练样本组成的集合称为”训练集“,
————————————————————————————————————待更新