西瓜书第一二章理解（未完）

机器学习学渣

于 2021-08-17 23:36:06 发布

阅读量183

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_47482052/article/details/119768792

版权

第一章绪论

1.1引言

学习：假设P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上，P获得了提高，就说该程序对E进行了学习。通俗讲就是通过一个程序性能得到了提高，这个过程就叫学习。

1.2基本术语

示例/样本：一条记录，一个行向量

属性/特征：一个列向量/特征向量

属性值：一个列向量中的一个具体值

属性空间：所有属性的集合

样本维数：属性的个数或特征向量的个数

训练集：用来训练的样本集合通常称为Train

假设：学的模型关于数据的某种潜在规律，通常为假设函数

学习器：学习算法在给定数据和参数空间上的实例化

标记：分类任务中的类别，Y值

样例：有标记的示例

分类任务：预测的是离散值的任务

回归任务：预测的是连续值的任务

无监督任务：训练数据无标记，无Y

有监督任务：训练数据有标记，有Y

泛化能力：模型适用于整个样本空间的能力（实际性能）

1.3假设空间

版本空间：与训练集一致的假设的集合（可能有多个）

例如，对于样本

存在

两个假设，称这两个假设为这个样本空间的假设空间/版本空间。

1.4归纳偏好

归纳偏好：机器学习算法在学习过沉重对于某种类型假设的偏好。例如，奥卡姆剃刀原则就是算法喜欢简单模型的一种偏好。

奥卡姆剃刀原则：若有多个假设与观察一致，选择最简单的一个。

NFL的启示：脱离具体数据与具体任务的算法毫无意义。

第二章模型评估与选择

2.1经验误差与过拟合

错误率 E = a/m（其中a为分类错误的样本的个数，m为总样本的个数）

精度 = 1 - E

错误率与精度一般用于分类任务中

过拟合：学习器把训练样本自身的特点当做了一般性质

欠拟合：学习器对训练样本的一般性质没有学好

例如

注意：欠拟合一般比较好克服，可以通过改变学习算法、增加模型的训练次数等方式改进

过拟合一般难以克服；

克服过拟合的一般方法：①增加数据 ②特征选择/提取，如PCA ③正则化

2.2评估方法

一、处理Data的方法：

2.21 留出法

思想：将Data划分为两个互斥的集合，一个用于训练，另一个用于测试

为了保持数据分布的一致性，避免因数据划分而导致偏差，通常用分层抽样的方法进行采样，一般T:S=7:3

注意：单次使用留出法评估结果往往不稳定可靠，一般采用若干次随机划分、重复进行试验评估后取平均值作为结果。

2.22 交叉验证法

思想：将Data划分为k个大小相似的互斥集合，用k-1个子集来训练，留一个用来测试，对于测试结果取平均作为结果。

注意：

采样时：为了保持数据分布的一致性，避免因数据划分而导致偏差，通常用分层抽样的方法进行采样（与留出法采样一致）。

取结果：几折交叉验证就会存在几个测试结果，对这些结果取平均值。

k折交叉验证可获得k组训练/测试集，可以进行k次训练和测试，最终返回k个测试结果。

例如：

留一法（1折交叉验证）

优点：结果准确；不受随机样本划分方式的影响
缺点：计算开销大

2.23自助法（重复采样）

自助法适用性：数据小难以有效分S T时使用

注意：自助法产生的数据集会改变原始数据集的分布，从而引入估计偏差

2.24调参

超参数：一般数量较少，人工给定

模型参数：一般数量很多，用模型进行学习

2.3性能度量

均方误差：用于回归任务

其中式（2.2）为离散值时均方误差；式（2.3）为连续值时均方误差

2.31错误率与精度（适用于类平衡数据）

其中式（2.4）（2.5）为离散值时的错误率与精度；式（2.6）（2.7）为连续值时的错误率与精度

2.32查准率P（准确率/精度）、查全率R（召回率）与F1（适用于类不平衡数据）

一般来说查准率与查全率是矛盾的，于是就有了P-R图

一般衡量标准

P-R曲线下方的面积，面积越大模型越好

BEP（平衡点）：平衡点越往右上，模型越好

F1度量：

Fβ度量：

2.33 ROC与AUC（用来度量概率分类器的排序性能）

机器学习学渣

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
西瓜书第一二章理解（未完）

第一章绪论1.1引言学习：假设P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上，P获得了提高，就说该程序对E进行了学习。通俗讲就是通过一个程序性能得到了提高，这个过程就叫学习。1.2基本术语示例/样本：一条记录，一个行向量属性/特征：一个列向量/特征向量属性值：一个列向量中的一个具体值属性空间：所有属性的集合样本维数：属性的个数或特征向量的个数训练集：用来训练的样本集合通常称为Train假设：学的模型关于数据的某种潜在规律，通常为假设.
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。