机器学习笔记 2

半衾梦430

已于 2024-09-14 11:02:22 修改

阅读量799

点赞数 23

文章标签：笔记 python 机器学习

于 2024-09-14 11:01:34 首次发布

本文链接：https://blog.csdn.net/2403_87090299/article/details/142231708

版权

第二章机器学习基本方法

模型评估与模型参数选择

（一）、数据集：1.训练集、2.验证集、3.测试集

误差：预测输出^y与真实输出y之间的差异；
• 经验误差、训练误差：在训练集上的误差；
• 泛化误差：在新样本上的误差。
• 泛化误差越小越好，经验误差不一定越小越好，可能导致过拟合。

3种数据集之间的关系：
•训练集相当于上课学知识
•验证集相当于课后的的练习题，用来纠正和强化学到的知识
•测试集相当于期末考试，用来最终评估学习效果。

1、训练集：训练集是机器学习过程中不可或缺的一部分，它为模型提供了学习和改进的基础。通过合理地选择和使用训练集，可以有效地提升模型的性能和应用效果。

2、验证集：验证集有2个主要的作用：a.评估模型效果，为了调整超参数而服务
b.调整超参数，使得模型在验证集上的效果最好
说明：a.验证集不像训练集和测试集，它是非必需的。如果不需要调整超参数，就可以不使用验证集，直接用测试集来评估效果。
b.验证集评估出来的效果并非模型的最终效果，主要是用来调整超参数的，模型最终效果以测试集的评估结果为准。

3、测试集：通过测试集的评估，我们会得到一些最终的评估指标，例如：
准确率、精确率、召回率、F1等。

4、划分数据集

5、过拟合：将训练样本自身的一些特点当作所有样本潜在的泛化特点。
6、表现：在训练集上表现很好，在测试集上表现不好。
7、过拟合的原因：a.训练数据太少（比如只有几百组）
b.模型的复杂度太高（比如隐藏层层数设置的过多，神经元的数量设置的过大）
c.数据不纯

8、为了选择效果最佳的模型，防止过拟合的问题，通常可以采取的方法有：
        a.移除特征，降低模型的复杂度：减少神经元的个数，减少隐藏层的层数
        b.训练集增加更多的数据
        c.重新清洗数据
        d.数据增强
        e.正则化
        f.早停

9、欠拟合：还没训练好。
（1）、欠拟合的原因： a.数据未做归一化处理
                                        b.神经网络拟合能力不足
c.数据的特征项不够
（2）、解决方法：a.寻找最优的权重初始化方案
                                b.增加网络层数、epoch
                                c.使用适当的激活函数、优化器和学习率
                                d.减少正则化参数
                                 e.增加特征

第3章机器学习基本方法

监督学习

监督学习与非监督学习

监督学习

1、监督学习——回归

（1）、回归问题在生活中非常常见，其最简单的形式是一个连续函数的拟合。

（2）、回归问题中通常使用均方损失函数来作为度量模型效果的指标，最简单的求解例子是最小二乘法。

（3）、简单线性回归：自变量 x 和因变量 y之间存在一条线性关系：

（4）、多元线性回归：假设自变量和因变量 y之间存在一条线性关系：

（5）、线性回归可以预测的场景：a.预测房价、b.预测销售额、

2、监督学习——分类

准确率（Accuracy）：对于测试集中D个样本，有k个被正确分类，D-k个被错误分类，则准确率为：

精确率（查准率）- Precision：所有被预测为正样本中实际为正样本的概率

精准率代表对正样本结果中的预测准确程度。
准确率则代表整体的预测准确程度，既包括正样本，也包括负样本。

召回率（查全率）- Recall：实际为正样本中被预测为正样本的概率

召回率的应用场景：
比如拿网贷违约率为例，相对好用户，我们更关心坏用户，不能错放过任何一个坏用户。因为如果我们过多的将坏用户当成好用户，这样后续可能发生的违约金额会远超过好用户偿还的借贷利息金额，造成严重偿失。
召回率越高，代表实际坏用户被预测出来的概率越高，它的含义类似：宁可错杀一千，绝不放过一个。
召回率越高，也代表网络可以改进的空间越大。