绪论
1.1引言
以计算的手段利用经验(数据)来改善系统自身性能。在计算机上面从数据中产生模型,我们提供经验数据,基于经验和数据产生模型,面对新的情况模型会给我们相应的判断。
另一本经典教材的作者Mitchell给出了一个形式化的定义,假设:
-
P:计算机程序在某任务类T上的性能。
-
T:计算机程序希望实现的任务类。
-
E:表示经验,即历史的数据集。
若该计算机程序通过利用经验E在任务T上获得了性能P的改善,则称该程序对E进行了学习。
1.2基本术语
1.2.1术语
假设我们收集了一批西瓜的数据,例如:(色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂=稍蜷;敲声=沉闷), (色泽=浅自;根蒂=硬挺;敲声=清脆)……每对括号内是一个西瓜的记录,定义:
-
所有记录集合称为数据集。
-
某一条记录称为一个样本。
-
色泽、根蒂、敲声等称为属性。
-
乌黑、青绿、沉闷等称为属性值。
-
将色泽、根蒂、敲声作为描述西瓜的三维空间,每个样本都可以在空间中找到一个点,每个点对应一个向量,所以称每个样本为一个特征向量。
令D={x1,x2,x3,x4...xm}表示包含了m个样本的数据集,每个样本有d个属性(如上面的西瓜数据集有3个属性),xi={xi1,xi2,xi3...xid}是d维样本空间的一个向量,xij是xi在第j个属性的取值,d称为样本维数。
1.2.2有监督学习
监督学习中的数据中是提前做好了分类信息的, 它的训练样本中是同时包含有特征和标签信息的,因此根据这些来得到相应的输出。(机器知道要分几类)
分类→预测离散值
-
二分类
-
多分类
回归→预测连续值
1.2.3无监督学习
训练样本的标记信息未知, 目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础,此类学习任务中研究最多、应用最广的是"聚类" (clustering),聚类目的在于把相似的东西聚在一起,主要通过计算样本间和群体间距离得到。深度学习和PCA都属于无监督学习的范畴。(不知道要分几类,机器自己分)
1.3归纳偏好
奥卡姆剃刀原则:尽量选简单的
NFL定理:所有算法的总误差一样,在某些问题上优秀的算法在其他问题上会有缺陷。→→偏好
1.4假设空间
-
演绎:一般→特殊,特化
-
归纳:特殊→一般,泛化