西瓜书笔记
第一章 绪论
机器学习:利用“数据”作为“经验”形式,让计算机在计算数据时产生 “模型”,然后根据得到的“经验”模型来对新的情况作出判断。
基本术语
样本:记录中对一个事件或对象的描述
数据集:一组记录的集合
属性:反映时间或对象在某方面的表现或性质
样本空间:所有属性组成的空间,例如:色泽青绿、根蒂蜷缩、声音浊响的西瓜。其中(色泽青绿、根蒂蜷缩、敲声浊响)是一条记录,这条记录中描述西瓜的内容为一个样本;色泽、根蒂、敲声为西瓜的属性,青绿、蜷缩、浊响为各属性对应的属性值;三种属性组成描述西瓜的三维样本空间,映射到空间中的坐标向量为其特征向量。
训练数据:用于模型训练的数据
测试数据:使用模型进行预测的数据
机器学习两大类:监督学习与无监督学习,其中监督学习包括分类和回归,无监督学习包括聚类。
“泛化”能力:学得的模型适用于新样本的能力,具有强泛化能力的模型可较好的用于整个样本空间
独立同分布:样本空间中全体样本服从同一个未知分布,且各个样本之间是独立的
布尔值:0/1,即“是”或“不是”
假设空间:由判断事物的可能取值所形成的假设组成。例如西瓜的色泽可能有“青绿”“乌黑”“浅白”以及任意值都行四种情况。特别注意“取什么都合适”这种可能。同时计算假设空间时还应考虑一种极端情况,就是空集。
版本空间:存在着一个与训练集一致的“假设集合”。
“奥卡姆剃刀”原则:若有多个假设与观察一致,则选择最简单的那个。
归纳偏好:是对应于“