机器学习的笔记

最新推荐文章于 2024-10-02 13:16:54 发布

gagagagahhhhhh

最新推荐文章于 2024-10-02 13:16:54 发布

阅读量1.1k

点赞数 16

文章标签：机器学习笔记人工智能

本文链接：https://blog.csdn.net/gagagagahhhhhh/article/details/142302295

版权

机器学习的基本方法

模型评估与模型参数选择

数据集

任何机器学习项目的基石都是数据集。通常我们将数据集分为三部分：训练集、验证集和测试集。训练集用于模型学习基础概念；验证集则用于优化模型参数；而测试集，则是评估模型最终性能的“期末考试”。

验证集

验证集对于调整模型参数至关重要。它帮助我们找到最优的超参数组合，以确保模型在未知数据上的性能。一旦我们对模型的超参数满意，我们便可以在测试集上进行最终评估。

误差与损失函数

模型评估的第一步是理解误差的概念。当我们的模型预测值 y_hat 与真实目标值 y 不一致时，就产生了误差。这种偏差通过损失函数来量化，它是预测值与真实值之间的差额的数学表达。

训练误差 vs 泛化误差

模型在训练数据上的平均误差被称为训练误差，而在未见的新数据上的误差称为泛化误差。一个好的模型应确保低泛化误差，这是因为我们的终极目标是让模型能处理之前未见过的数据。

过拟合与欠拟合

过拟合：

将训练样本自身的一些特点当作所有样本潜在的泛化特点。

表现：在训练集上表现很好，在测试集上表现不好。

过拟合的原因：训练数据太少（比如只有几百组）模型的复杂度太高（比如隐藏层层数设置的过多，神经元的数量设置的过大）、数据不纯

欠拟合：

还没训练好

欠拟合的原因：数据未做归一化处理、神经网络拟合能力不足、数据的特征项不够

解决方法：寻找最优的权重初始化方案、增加网络层数、 epoch、使用适当的激活函数、优化器和学习率、减少正则化参数、增加特征

在模型构建过程中，我们常常遇到两个问题：过拟合和欠拟合。过拟合发生在模型太复杂、拟合了训练数据中的噪声时，此时模型在训练集上表现优异，在测试集上却大失水准。而欠拟合则是当模型过于简单，无法捕捉数据的真实分布。

为了防范这些情况，我们可以采取多种策略，比如减少模型复杂度、增加数据量、数据增强或正则化等。

测试集——最终的检验场

评估模型效果，为了调整超参数而服务，调整超参数，使得模型在验证集上的效果最好

测试集就像是对模型能力的最终考核。它从未在模型训练或验证阶段使用过，因此提供了一个无偏的评估标准。准确率、精确率、召回率和F1分数等指标通常是我们在这个阶段关注的。

数据集划分的实践

超参数越少，或者超参数很容易调整，那么可以减少验证集的比例，更多的分配给训练集

在实践中，小规模数据集常见的划分比例为60%训练集、20%验证集和20%测试集。而对于大规模数据集，验证集和测试集的比例可以更小，因为更多的数据将提供足够的信息来训练模型。

监督学习

监督学习与非监督学习

如果数据集中样本点只包含了模型的输入𝒙，那么就需要采用非监督学习的算法。

如果这些样本点以〈𝒙,𝒚〉这样的输入-输出二元组的形式出现（有数据标签），那么就可以采用监督学习的算法。

模型与最优化算法的选择，很大程度上取决于能得到什么样的数据。

监督学习：

在监督学习中，我们根据训练集中的观测样本点来优化模型，使得给定测试样例𝒙′作为模型输

入，其输出尽可能接近正确输出。回归问题的输出是连续值，分类问题的输出是离散值。

回归

回归问题在生活中非常常见，其最简单的形式是一个连续函数的拟合。

一个购物网站想要计算出其在某个时期的预期收益，研究人员会将相关因素如广告投放量、网站流量、优惠力度等纳入自变量，根据现有数据拟合函数，得到在未来某一时刻的预测值。

回归问题中通常使用均方损失函数来作为度量模型效果的指标，最简单的求解例子是最小二乘法。

简单线性回归：

自变量 x 和因变量 y之间存在一条线性关系

多元线性回归：

假设自变量和因变量 y之间存在一条线性关系

回归的用途

1.预测房价：假设我们想要预测某个城市的房价。我们可以收集到该城市过去几年的房价数据，以一相关的因素，比如房屋的面积、房龄、所处区域、楼层等。我们可以使用这些数据建立一条最佳拟合直线，从而对未来的房价进行预测。自变量可以包括面积、房龄、所处区域等，因变量是房价我们可以通过最小二乘法来估计截距和斜率的值，从而得到一条最佳拟合直线。这条直线可以用来预测未来的房价，也可以用来分析不同因素对房价的影响。

2.预测销售额：假设我们想要预测某家公司未来一年的销售额。

我们可以收集到该公司过去几年的销售额数据，以及一些相关的因素，比如广告投入、促销活动、季节性因素等。我们可以使用这些数据建立一条最佳拟合直线，从而对未来的销售额进行预测。自变量可以包括广告投入、促销活动、季节性因素等，因变量是销售额。我们可以通过最小二乘法来估计截距和斜率的值，从而得到一条最佳拟合直线。这条直线可以用来预测未来的销售额，也可以用来分析不同因素对销售额的影响。