机器学习基础

最新推荐文章于 2024-10-06 21:14:34 发布

2301_82001223

最新推荐文章于 2024-10-06 21:14:34 发布

阅读量1.6k

点赞数 37

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/2301_82001223/article/details/136534044

版权

本文详细探讨了模型评估中的关键概念，如损失函数、训练误差与泛化误差，以及过拟合和欠拟合的定义及其解决方案。同时，文章深入解析了监督学习（包括回归和分类）与非监督学习的区别、应用和评估指标，展示了它们在实际问题中的重要性。

摘要由CSDN通过智能技术生成

1.模型评估与模型参数选择

1.1 损失函数

若对于给定的输入x，若某个模型的输出y ̂=f(x)偏离真实目标值y，那么就说明模型存在误差；y ̂偏离y的程度可以用关于y ̂和y某个函数L(y,y ̂)来表示，作为误差的度量标准：这样的函数L(y,y ̂)称为损失函数，损损失函数是用于衡量模型预测结果与真实结果之间差异的函数。

1.2 训练误差和泛化误差

在某种损失函数度量下，训练集上的平均误差被称为训练误差，测试集上的误差称为泛化误差。由于我们训练得到一个模型最终的目的是为了在未知的数据上得到尽可能准确的结果，因此泛化误差是衡量一个模型泛化能力的重要标准。

1.3过拟合和欠拟合

1.3.1 过拟合定义

过拟合是模型在训练数据上表现优异，但在未见过的数据上泛化性能较差的现象。过拟合通常出现在机器学习模型过于复杂时，它学习了训练数据中的噪声和细节，而不是数据的潜在分布。这导致模型在新的、未见过的数据上表现不佳，因为它错误地将训练集中的抽样误差当作了普遍规律。过拟合的标志是模型在训练集上表现出色，但在验证集或测试集上表现差。

1.3.2 解决过拟合的方法

增加数据量：更多的数据可以帮助模型学习到更普遍的特征，减少对训练集中特定样本特征的依赖。
降低模型复杂度：选择更简单的模型或减少模型参数的数量，以避免模型捕捉到训练数据中的随机噪声。
正规化：通过加入正则化项来惩罚模型的复杂度，从而防止模型过度拟合训练数据。
验证：简单交叉验证，在训练集上使用不同的超参数训练，使用测试集选出最佳的一组差评参数设置；K重交叉验证，将数据集分为K等份，每次使用其中一份作为测试集，剩余的作为训练集，进行K次划分之后，选择最佳的模型。

1.3.3欠拟合的定义

欠拟合是指模型无法在训练集上获得足够低的误差，通常表现为模型复杂度不足，无法捕捉数据的基本规律。

1.3.4解决欠拟合的方法

增加模型复杂度：通过增加模型的参数或使用更复杂的模型结构，使模型能够学习到更多的数据特征和模式。
进行特征工程：添加或构造新的特征，以帮助模型更好地理解数据。
应用正则化方法：虽然正则化通常用于防止过拟合，但在某些情况下，适当的正则化也可以帮助改善模型的拟合能力。
增加数据量：提供更多的训练数据可以帮助模型学习到更多的信息，从而改善其性能。
数据增强：通过对现有数据进行变换和扩充，可以有效地增加数据的多样性，提高模型的泛化能力。
模型集成：结合多个模型的预测结果，可以提供更准确的预测，减少单一模型可能出现的欠拟合问题。

2.监督学习与非监督学习

2.1 监督学习

在监督学习中，我们根据训练集{〈x^(i),y^(i)〉}_i=1^N中的观测样本点来优化模型f(⋅)，使得给定测试样例x′作为模型输入，其输出y ̂尽可能接近正确输出y′。 y ̂= f(x)

2.1.1回归

一个购物网站想要计算出其在某个时期的预期收益，研究人员会将相关因素如广告投放量、网站流量、优惠力度等纳入自变量，根据现有数据拟合函数，得到在未来某一时刻的预测值。回归问题中通常使用均方损失函数来作为度量模型效果的指标，最简单的求解例子是最小二乘法。

均方误差损失函数（Mean Squared Error，MSE）：最常用的回归问题的损失函数。其定义为预测值与真实值之间的平方差的平均值。该损失函数的值越小，表示模型的预测结果越接近真实值。

监督学习的回归应用场景：

金融预测：在金融领域，回归模型可以用来预测股票价格、汇率变动、信贷风险评估等。通过历史数据的学习，模型能够对未来的金融趋势做出预测。
医疗分析：在医疗健康领域，回归模型可以帮助预测患者的病情发展、药物剂量反应、疾病发生率等。医生和研究人员可以利用这些模型来优化治疗方案和健康管理策略。
房地产市场：利用房间面积、位置等因素来预测房价是回归模型的一个典型应用。这有助于房地产商评估房产价值，也帮助买家或投资者做出购买决策。
销售预测：企业可以使用回归模型对销售数据进行分析，预测未来的销售趋势，从而更好地管理库存，制定营销策略和预算计划。
自然科学探索：在自然科学研究中，回归模型用于分析各种自然现象与相关因素之间的关系，比如气候变化对农作物产量的影响，或是环境污染对生态平衡的作用。
能源消耗预测：通过分析历史能源消耗数据和相关影响因素，回归模型能够预测未来的能源需求，这对于能源供应规划和节能减排具有重要意义。
工程问题分析：在工程领域，回归模型可以用于结构强度预测、材料疲劳寿命预测等，帮助工程师设计更可靠、更耐用的产品。
交通流量预测：城市交通管理和规划部门使用回归模型预测道路拥堵情况和车流量，以优化交通布局和提高公共交通效率。
社会行为研究：社会科学家使用回归分析来研究教育水平、收入水平、职业类型等社会经济因素对个人和群体行为的影响。
环境科学研究：环境科学家用回归模型来预测污染物排放对环境的影响，或者评估保护措施的效果。
消费行为分析：市场营销人员运用回归模型分析消费者购买行为与广告投入、产品特性等变量间的关系，以便更精准地定位市场和客户。

2.1.2 分类

想要预测（检测）的目标是猫，那么在数据集中猫为正样本（Positive ），其他狗、兔子、狮子这些数据为负样本（Negative ）。

将这只猫预测（分类）为狗、兔子、其他预测结果为错（False）；将这只猫预测为猫，预测结果为对（True）

将正样本预测正样本（True Positive, TP）；

将正样本预测为负样本（False Negative, FN）；

将负类样本预测为正样本（False Positive, FP）；

将负类样本预测为负样本（True Negative, TN）。

分类评估指标：

准确率（Accuracy）：对于测试集中D个样本，有k个被正确分类，D-k个被错误分类，则准确率为： Accuracy=分类正确的样本/样本总数= k/D= (TP+TN)/(TP+TN+FP+FN)

精确率（查准率）- Precision：所有被预测为正样本中实际为正样本的概率：

Precision=预测为正样本实际也为样本/预测为正样本= TP/TP+FP

召回率（查全率）- Recall：实际为正的样本中被预测为正样本的概率：

Recall=预测为正样本实际也为样本/实际为正样本= TP/TP+FN

召回率的应用场景：比如拿网贷违约率为例，相对好用户，我们更关心坏用户，不能错放过任何一个坏用户。因为如果我们过多的将坏用户当成好用户，这样后续可能发生的违约金额会远超过好用户偿还的借贷利息金额，造成严重偿失。召回率越高，代表实际坏用户被预测出来的概率越高，它的含义类似：宁可错杀一千，绝不放过一个。召回率越高，也代表网络可以改进的空间越大。

把精确率（Precision）和召回率（Recall）之间的关系用图来表达，就是下面的PR曲线：