西瓜书笔记 第一二章

本文是《机器学习》(西瓜书)的第一章和第二章笔记。介绍了机器学习的基本概念,如样本、数据集、属性和泛化能力,并讨论了监督学习与无监督学习的区别。第二章聚焦模型评估与选择,讲解了错误率、精度、过拟合与欠拟合,以及模型评估方法,如留出法、交叉验证和自助法。
摘要由CSDN通过智能技术生成

西瓜书笔记

第一章 绪论

机器学习:利用“数据”作为“经验”形式,让计算机在计算数据时产生 “模型”,然后根据得到的“经验”模型来对新的情况作出判断。

基本术语

样本:记录中对一个事件或对象的描述

数据集:一组记录的集合

属性:反映时间或对象在某方面的表现或性质

样本空间:所有属性组成的空间,例如:色泽青绿、根蒂蜷缩、声音浊响的西瓜。其中(色泽青绿、根蒂蜷缩、敲声浊响)是一条记录,这条记录中描述西瓜的内容为一个样本;色泽、根蒂、敲声为西瓜的属性,青绿、蜷缩、浊响为各属性对应的属性值;三种属性组成描述西瓜的三维样本空间,映射到空间中的坐标向量为其特征向量。

训练数据:用于模型训练的数据

测试数据:使用模型进行预测的数据

机器学习两大类:监督学习与无监督学习,其中监督学习包括分类和回归,无监督学习包括聚类。

“泛化”能力:学得的模型适用于新样本的能力,具有强泛化能力的模型可较好的用于整个样本空间

独立同分布:样本空间中全体样本服从同一个未知分布,且各个样本之间是独立的

布尔值:0/1,即“是”或“不是”

假设空间:由判断事物的可能取值所形成的假设组成。例如西瓜的色泽可能有“青绿”“乌黑”“浅白”以及任意值都行四种情况。特别注意“取什么都合适”这种可能。同时计算假设空间时还应考虑一种极端情况,就是空集。

版本空间:存在着一个与训练集一致的“假设集合”。

“奥卡姆剃刀”原则:若有多个假设与观察一致,则选择最简单的那个。

归纳偏好:是对应于“

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值