机器学习 part

最新推荐文章于 2024-06-01 23:22:31 发布

槿__

最新推荐文章于 2024-06-01 23:22:31 发布

阅读量1.9k

点赞数

分类专栏：数据分析文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43497124/article/details/124049683

版权

一、基础

归纳：从特殊到一般的“泛化”过程，即从具体事实归结出一般性规律

演绎：从一般到特殊的“特化”过程，即从基础原理推演吃u具体状况

假设空间：色泽、根蒂、敲声分别有3、2、2种取值，则假设空间规模为 4×3×3+1 = 37

版本空间：现实问题中常面临很大的假设空间，但可能有多个假设与训练集一致，即存在着一个与训练集一致的假设集合，称为“版本空间”

奥卡姆剃刀原则：若有多个假设与观察一致，则选择最简单的那个

没有免费的午餐(NFL)定理：没有一个学习算法可以在任何领域总是产生最准确的学习器。不管采用何种学习算法，至少存在一个目标函数，能够使得随机猜测算法是更好的算法

二、模型评估与选择

1. 经验误差与过拟合

错误率(error rate)：分类错误的样本数占样本总数的比例

精度(accuracy) = 1-错误率

误差(error)：学习器实际预测输出与样本的真实输出之间的差异

a. 训练误差(training error)/经验误差：学习器在训练集上的误差

b. 泛化误差(generalization error)：学习器在新样本上的误差

过拟合(overfitting)：学习器把训练样本学的“太好”，把训练样本自身特点当作潜在样本都会具有的一般性质，导致泛化性能下降（原因：学习能力过于强大；过拟合不可避免）

欠拟合(unerfitting)：对训练样本的一般性质尚未学好（原因：学习能力低下）

2.评估方法

使用测试集(testing set)测试学习器对新样本的判别能力，以测试集上的“测试误差”作为泛化误差的近似。通常假设测试样本也是从样本真实分布中独立同分布采样而得，但测试集应尽量与训练集互斥。

只有一个包含m个样例的数据集D，从中产生出训练集S和测试集T的常见做法：

① 留出法

直接将数据集D划分成两个互斥的集合，一个为训练集一个为测试集。划分尽量保持数据分布的一致性，避免因数据划分过程引入的额外的偏差而对最终结果产生影响（例如在分类任务重，至少要保持样本的类别比例相似，可以分层采样）

单次留出法得到的结果往往不够稳定可靠，一般要进行若干次随机划分、重复实验评估后取平均值为留出法的评估结果。

窘境：若训练集S包含大多数样本，则性能练出来的模型更接近用D训练的模型，T比较小，所以评估结果不够稳定准确；若训练集T多包含一些样本，则训练集S与D差别较大，降低了评估结果的保真性(fidelity)。这个问题没有完美的解决方法，一般将大约2/3~4/5样本用于训练，剩余样本用于测试。

② 交叉验证法

先将数据集D划分成k个大小相似的互斥子集，每个子集都尽可能保持数据分布的一致性，即从D种通过分层采样得到。每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集。得到k组训练/测试集，进行k次训练和测试，返回k个测试结果的均值。

评估结果的稳定性和保真性在很大程度上取决于k的取值，k通常取10，也有5，20.

为减小因样本划分不同而引入的差别，通常要随机使用不同的划分重复p次，最终的评估结果是这p次k折交叉验证结果的均值，例如10次10折交叉验证

特例——留一法：k = m每个子集只包含一个样本。留一法的评估结果往往被认为比较准确，但数据量较大时，训练模型的开销难以忍受。

③ 自助法

以“自助采样法(bootstrap sampling)”为基础。给定m个样本的数据集D，每次随机从D中挑选一个样本拷贝进D'，过程重复m次，得到包含m个样本的数据集D'。显然，D中有一部分样本会在D'中多次出现，而另一部分样本不出现。样本在m次采样中始终不被采到的概率是（1-1/m）^m，取极限约等于0.368.将D'作为训练集，D做测试集，有1/3没在训练集中出现过的样本做测试。这样的测试结果称为“包外估计”

优点：在数据集较小，难以有效划分S/T时很有用。而且自助法能从初始数据中产生多个不同的训练集，对集成学习等方法有很大好处。

缺点：产生的数据集改变了初始数据集的分布，会引入估计偏差。因此在初始数据量足够时，常用留出法和交叉验证法。

调参(parameter tuning)与最终模型：

对每个参数选定一个范围和变化步长，例如在[0,0.2]范围内以0.05作为步长，实际要评估的候选参数值有5个。

给定m个样本的数据集D，训练集是只是用了D中的一部分数据训练模型。所以在模型选择完成后，学习算法和参数配置已选定，此时应该用D重新训练模型，这才是交给用户的最终模型

3. 性能度量

回归任务最常用的性能度量是“均方误差(mean squared error)”

① 错误率与精度

② 查准率、查全率、F1

分类结果的混淆矩阵：查准率P、查全率：

查准率和查全率是一对矛盾的度量。只有在一些简单任务重，查全率和查准率才会都很高

以查准率为纵轴，查全率为横轴作图，得到P-R曲线。若有一个学习器的P-R曲线能够被另一个学习器的曲线完全“包住”，则可断言后者的性能优于前者；如果曲线有交叉，则难以一般性地断言两者孰优孰劣，只能在具体的查准率或查全率条件下进行比较。也可以比较P-R曲线下面积的大小，在一定程度上代表了学习器在查准率和查全率从上取得“双高”的比例。

平衡点(Brea

最低0.47元/天解锁文章

槿__

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
机器学习 part

一、基础归纳：从特殊到一般的“泛化”过程，即从具体事实归结出一般性规律演绎：从一般到特殊的“特化”过程，即从基础原理推演吃u具体状况假设空间：色泽、根蒂、敲声分别有3、2、2种取值，则假设空间规模为 4×3×3+1 = 37版本空间：现实问题中常面临很大的假设空间，但可能有多个假设与训练集一致，即存在着一个与训练集一致的假设集合，称为“版本空间”奥卡姆剃刀原则：若有多个假设与观察一致，则选择最简单的那个没有免费的午餐(NFL)定理：没有一个学习算法可以在任何领域总是产生最准确的学习器
复制链接

扫一扫