西瓜书第一、二章概览

目录

前言

一、绪论

1.基本术语

2.假设空间

3.归纳偏好

二、模型评估与选择

1.经验误差与过拟合

2.评估方法

3.性能度量


前言

机器学习是什么?它是研究关于“学习算法”(能从数据中学习其背后的规律的算法)的一门学科。深度学习特指基于深层神经网络模型和方法的机器学习。


一、绪论

1.基本术语

样本:也称为“示例”,是关于一个事件或对象的描述。可以用特征向量表示。

样本空间:也称为“输入空间”或“属性空间”。通常用花式大写的X 表示。

数据集:数据集通常用集合来表示。

标记:研究学习样本在某个方面的表现是否存在潜在的规律,我们称该方面的信息为“标记”。标记所在的空间称为“标记空间”或“输出空间”,数学表示为花式大写的 Y。标记通常也看作为样本的一部分,因此,一个完整的样本通常表示为 (x, y)。根据训练数据是否有标记信息,学习任务可划分为两大类:“监督学习”和“无监督学习”,分类和回归是前者的代表,聚类是后者的代表。 

模型选用某个机器学习算法,让其在训练集上进行“学习”,然后产出得到“模型”(或称为“学习器”),最后用测试集来测试模型的效果。

泛化:模型适用于新样本的能力称为“泛化”能力。

2.假设空间

假设空间:由输入空间到输出空间的映射的集合。
版本空间:与训练集一致的“假设集合”。

3.归纳偏好

不同的机器学习算法有不同的偏好,称之为“归纳偏好”。不同模型的总误差与其学习算法无关,这就是“没有免费的午餐”定理。学习算法之间没有绝对的优劣之分,只有是否适合当前待解决的问题之分。

二、模型评估与选择

1.经验误差与过拟合

错误率:E = m*a ,其中 m 为样本个数,a 为分类错误样本个数。

精度:精度 =1-错误率。

误差:学习器的实际预测输出与样本的真实输出之间的差异。

泛化误差:学习器在新样本上的误差。

经验误差:学习器在训练集上的误差,又称为“训练误差”。

过拟合:由于学习能力过于强大,把训练样本所包含的不太一般的特性都学到了,导致泛化性下降。无法彻底避免。

欠拟合:由于学习能力低下,对训练样本的一般性质尚未学好,比较容易克服。

2.评估方法

留出法:将数据集划分为两个互斥的集合,一个作为训练集,另一个作为测试集。训练集和测试集的划分采用“分层采样”,多次随机划分、重复进行实验评估后取平均值。

交叉验证法:将数据集划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,余下的集合作为测试集。如此进行k次训练和测试,返回k次测试结果的均值。

自助法:对含m个样本的数据集有放回采样m次,得到训练集,未被采样到的样本作为测试集。

3.性能度量

错误率与精度

查准率:被学习器预测为正例的样例中是真正例的比例

查全率:所有正例当中被学习器预测为正例的比例。

一般来说,查全率越高,查准率越低,而查准率越高,查全率则越低。

P-R图:学习器在样本总体上的查全率和查准率。若一个学习器的P-R曲线被另一个学习器的曲线包围,则后者性能优于前者。

F1:综合考察查全率和查准率的度量。F1=2\times P\times R\div\left ( P+R \right )

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值