机器学习中的学习理论

最新推荐文章于 2024-09-28 21:20:29 发布

2402_87073867

最新推荐文章于 2024-09-28 21:20:29 发布

阅读量401

点赞数 5

文章标签：笔记

本文链接：https://blog.csdn.net/2402_87073867/article/details/141926988

版权

一、统计分析的基本概念：监督学习需标签和数据、无监督学习探索结构、半监督学习结合二者、强化学习试错优化

超参数是机器学习算法的调优参数，常应用于估计模型参数过程，由人工直接指定，可以使用启发方式方法设置，能依据特定预测问题调整。

模型参数是学习算法拟合训练数据获得的参数，这些参数是作为模型本身的参数而存在的。

二、统计学习方法的三要素：1、模型：数据决定模型的上限、算法优化模型性能；2、策略：策略选择影响模型性能、数据分布影响策略有效性、特征选择优化策略表现；3、算法：统计学习是机器学习的基石，通过数据驱动、自动学习数据中的模式和规律，实现智能化预测贺决策；通过正则化和交叉验证避免过拟合；要利用充足的数据来支持更复杂算法的训练，提升模型的准确率和鲁棒性；利用非参数方法来展现出其强大的泛化能力和适应性。

三、模型假设与验证

交叉验证的原理：1、交叉验证通过将数据划分为训练集和验证集，有效防止了模型在训练集上过拟合，提高了模型在未知数据上的泛化能力。2、通过多次交叉验证并计算平均性能指标，能够准确评估机器学习模型的性能，为模型选择和调参提供依据。3、无论是小规模数据集还是大规模数据集，交叉验证都能有效应用，特别是在数据集较小时，通过交叉验证可充分利用数据，提高模型精度。

四、模型评估与选择

我们在假设一个模型来拟合数据集时，需要找到最合适的模型，不断地扩大数据集、增加提取特征是见效甚微的方法，比较好的是对数据集进行合理的划分，将整个数据集划分为三个部分：训练集、交叉检验集和测试集。当训练误差和交叉检验误差大小相似、且值都很大的时候，属于假设模型欠拟合；当交叉检验误差远大于训练误差、且训练误差值很小的时候，属于是假设模型过拟合；只有当训练误差和交叉检验误差大小相似、且交叉检验误差值很小的时候，属于是较好的模型假设；

五、生成模型

1、机器学习分为有监督的机器学习和无监督的机器学习；
2、有监督的机器学习就是已知训练集数据的类别情况来训练分类器，无监督的机器学习就是不知道训练集的类别情况来训练分类器；
3、有监督的机器学习可以抽象为一个分类task，而无监督的基本完成的是聚类；
4、有监督的机器学习中，我们可以概述为通过很多有标记的数据，训练出一个模型，然后利用这个，对输入的X进行预测输出的Y

六、判别模型

判别方法：由数据直接学习决策函数Y=f(X)或者条件概率分布P(Y|X)作为预测的模型，即判别模型。基本思想是有限样本条件下建立判别函数，不考虑样本的产生模型，直接研究预测模型。典型的判别模型包括k近邻，感知级，决策树，支持向量机等，由生成模型可以得到判别模型，但由判别模型得不到生成模型。将跟踪问题看成一个二分类问题，然后找到目标和背景的决策边界。它不管目标是怎么描述的，那只要知道目标和背景的差别在哪，然后你给一个图像，它看它处于边界的那一边，就归为哪一类。

七、统计学习在实际中的应用

统计学是一门研究如何收集、处理、分析、解释数据，并从数据中得出结论的学科。在IT领域，统计学的应用主要体现在数据分析上。数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息，形成结论的过程。

在数据分析中，我们常常会用到以下几个核心概念：

样本和总体：总体是我们想要研究的所有对象的集合，而样本则是从总体中选取的一部分对象。我们通常通过对样本的研究，来推断总体的性质。

参数和统计量：参数是用来描述总体特性的数值，如总体平均值、总体方差等。统计量则是用来描述样本特性的数值，如样本平均值、样本方差等。

假设检验：假设检验是一种统计推断方法，用于判断观察到的数据是否支持我们对总体参数的某种假设。

回归分析：回归分析是一种预测方法，用于研究变量之间的关系。例如，我们可以通过回归分析，研究销售额与广告投入之间的关系。

应用非常广泛，以下是一些常见的应用场景：1、用户行为分析：通过对用户行为数据的统计分析，我们可以了解用户的喜好和习惯，从而优化产品设计，提升用户体验。2、业务决策支持：通过对业务数据的统计分析，我们可以了解业务的运行状况，从而做出更好的业务决策。3、质量控制：通过对生产数据的统计分析，我们可以控制和改善产品的质量。4、科学研究：在科学研究中，统计分析是一种重要的研究方法，用于从实验数据中提取有价值的信息。