【22-23春学期】AI作业3 监督学习

最新推荐文章于 2024-08-16 18:13:47 发布

这里嘉嘉

最新推荐文章于 2024-08-16 18:13:47 发布

阅读量186

点赞数 1

文章标签：人工智能学习

本文链接：https://blog.csdn.net/qq_52502926/article/details/129827570

版权

1.集成学习（Ensemble Learning）是一种机器学习技术，通过将多个不同的学习算法或同一算法不同的实例进行组合，从而得到比单一模型更为准确和稳定的预测结果。其基本思想是：将多个弱分类器或回归器结合起来，通过“投票”或“加权平均”的方式，将它们的预测结果集成成一个强分类器或回归器。

集成学习主要分为两种类型：Bagging和Boosting。

Bagging（Bootstrap Aggregating）是一种基于自助采样法的集成学习方法，通过从原始数据集中使用有放回的采样方式抽取多个子集，每个子集用于训练一个基学习器，最后再将多个基学习器的输出结果进行投票或平均得到最终的预测结果。

Boosting 是一种迭代的集成学习方法，通过对训练数据集进行加权，每次训练一个基学习器，将错误分类的样本赋予更大的权重，并将新的基学习器加入到已有的学习器序列中，最终通过对所有基学习器进行加权平均的方式得到最终的预测结果。常用的Boosting算法包括AdaBoost、Gradient Boosting和XGBoost等。

集成学习通常能够显著提高模型的预测性能，尤其适用于数据量较少或者数据质量较差的情况下。

2.支持向量机（Support Vector Machine，SVM）是一种二分类模型，它的基本思想是找到一个最优的超平面，将不同类别的数据分开。具体地，SVM将样本映射到高维空间中，然后寻找一个在该空间中的最优超平面，使得该超平面能够最大化不同类别数据点之间的间隔（Margin），同时最小化误分类点的数量。

在SVM中，数据点被看作是在高维空间中的向量，超平面则被看作是该空间中的一个线性函数。SVM利用核函数将数据点从原始空间映射到一个更高维度的空间中，这使得SVM可以更好地处理非线性分类问题。常见的核函数有线性核函数、多项式核函数、高斯径向基函数等。

SVM在分类问题中有很好的性能表现，尤其适用于高维数据和小样本情况下的分类任务。同时，SVM也可以通过引入惩罚项来处理非线性问题、多分类问题以及不平衡分类问题。由于其优秀的性能表现和广泛的应用场景，SVM已经成为机器学习中重要的工具之一。

在支持向量机（SVM）中，软间隔（Soft Margin）是指允许在最优超平面上出现一些误分类点的情况。在实际的分类问题中，数据往往不是线性可分的，而硬间隔（Hard Margin）SVM只适用于线性可分的情况。为了处理非线性可分的数据，SVM引入了软间隔。

软间隔SVM允许最优超平面上出现一些误分类点，同时通过引入惩罚项来控制这些误分类点的数量。具体地，软间隔SVM优化的目标函数是：

其中，C是正则化参数，用于控制误分类点的数量，xi_i是松弛变量，表示第i个样本被错分的程度。松弛变量xi_i的取值为\xi_i \geq 0，当\xi_i=0时，表示第$i$个样本被正确分类，当0<\xi_i<1时，表示第i个样本被正确分类，但是位于最优超平面和真实分类边界之间，当\xi_i>1时，表示第i个样本被错误分类。目标函数的第一项表示最大

4.核函数是一种用于机器学习和统计学习中的函数。它通常用于将数据从一个特征空间映射到另一个特征空间，使得在新的特征空间中更容易进行分类、回归或聚类等任务。具体来说，核函数是一个满足Mercer定理的正定对称函数，它将数据集中的每个样本转换为在新特征空间中的一个向量。

核函数的主要优势是它可以在不显式计算出新特征空间的映射函数的情况下，有效地处理高维数据。这是因为它通过计算内积来进行分类、回归或聚类等任务，而内积可以通过核函数的计算来代替。这样做的好处是避免了计算高维特征空间映射所需的复杂性和计算资源，同时也可以避免过拟合和维数灾难等问题。

常见的核函数包括线性核函数、多项式核函数、高斯径向基函数（RBF）核函数等。不同的核函数适用于不同的任务和数据集，需要根据具体问题进行选择。

5.VC维是用来衡量一个二元分类器（或称假设集合）的能力的概念，它指的是能够被一个二元分类器正确分离的样本集合的最大数量。

更具体地说，给定一个假设集合H和一个定义在H上的二元分类器，对于样本集合S中的任意一组样本，如果这个分类器能够将它们正确地分为正类和负类，那么我们就称这个样本集合S是被H“打散”的。VC维就是这个二元分类器所能打散的最大样本集合的大小。

VC维的概念对于理解分类器的泛化能力和样本复杂度非常重要。根据VC维的定义，我们可以得到一个有用的结论：假设集合的VC维越大，它的样本复杂度就越高，而分类器的泛化能力就越强。

在机器学习和统计学习中，我们常常使用VC维来评估不同算法的复杂度和泛化能力，以选择最合适的算法和参数。

6.生成式模型是一种概率模型，它试图学习样本数据的概率分布，并可以用来生成与训练数据类似的新数据。生成式模型可以描述每个类别的概率分布，并在推断时使用贝叶斯定理来计算给定观察数据的条件下，每个类别的后验概率。

在生成式模型中，假设样本数据由潜在的隐变量和可观察的变量组成。我们通常会假设这些变量之间存在一个概率分布，并使用训练数据来学习这个概率分布。然后，当我们想要对新的、未见过的数据进行分类或生成时，我们可以使用学习到的概率分布来计算相应的概率值。

生成式模型常用的算法包括朴素贝叶斯、隐马尔可夫模型、高斯混合模型等。它们在自然语言处理、计算机视觉、语音识别、图像生成等领域有广泛的应用。生成式模型与另一种常见的模型——判别式模型相对应。判别式模型直接对给定的输入数据建模，而不需要对潜在变量进行建模，因此可以更直接地学习到类别之间的边界，具有更好的分类性能。

7.判别式模型（Discriminative Models）是一种统计学习模型，用于预测输入变量与输出变量之间的映射关系。其目标是在给定输入变量的情况下，预测输出变量的概率分布或者最优输出值。判别式模型的核心是学习输入变量到输出变量的映射关系，即条件概率分布P(Y|X)或者决策函数f(X)。相对于生成式模型，判别式模型更加关注预测准确性，因此常用于分类、回归、序列标注等任务中。

常见的判别式模型包括线性回归模型、逻辑回归模型、支持向量机、神经网络等。在实际应用中，选择何种判别式模型取决于问题的特性、数据的特点以及模型的复杂度和计算效率等因素。

8.生成式模型的优点：

可以建模输入和输出变量之间的联合概率分布，可以用于生成新的样本数据。
可以自然地处理缺失数据和噪声数据，因为它可以对缺失数据进行插值，对噪声数据进行平滑。
可以处理多模态数据，即同一输入变量对应多个输出变量的情况。

生成式模型的缺点：

由于要学习输入变量和输出变量的联合概率分布，因此需要更多的参数和更复杂的模型，训练和推断的计算成本较高。
由于模型过于复杂，过拟合的可能性较大。
不能直接进行分类等任务，需要额外的步骤进行推断。

判别式模型的优点：

训练和推断计算成本较低，适合大规模数据集和实时应用。
直接建模条件概率分布或决策函数，可以直接用于分类等任务。
模型结构简单，容易解释和理解。

判别式模型的缺点：

不能对缺失数据和噪声数据进行直接处理，需要进行预处理或者使用其他模型。
对于多模态数据的处理需要额外的步骤和技巧。
不能生成新的样本数据。

9.监督学习和无监督学习并不是严格意义上的判别式方法和生成式方法。

监督学习和无监督学习是机器学习中两种基本的学习范式。在监督学习中，算法从标注的训练数据中学习到输入和输出之间的映射关系，然后使用这些关系来对新的未标注数据进行预测。在无监督学习中，算法尝试从未标注的数据中学习到数据的内在结构和模式，然后使用这些结构和模式来对新数据进行分析和处理。

判别式方法和生成式方法是统计学习中的两种基本方法。在判别式方法中，学习的目标是直接从输入到输出的映射关系，例如分类任务中从输入到类别的映射。在生成式方法中，学习的目标是从数据中学习到联合分布，然后使用这个分布来进行推理和生成新的数据。

虽然监督学习通常使用判别式方法，因为它的目标是学习从输入到输出的映射关系，但也可以使用生成式方法。同样地，无监督学习通常使用生成式方法来学习数据的内在结构和模式，但也可以使用判别式方法。因此，监督学习和无监督学习不是严格意义上的判别式方法和生成式方法。

10.分类和聚类都是机器学习中的常见任务，但它们所使用的方法是不同的。

分类是一种判别式方法。它旨在将输入数据分为预定义的类别或标签之一。分类算法基于已经标记的训练数据进行学习，以便能够预测新的未标记数据所属的类别。常见的分类算法包括决策树、逻辑回归、朴素贝叶斯和支持向量机等。
聚类是一种生成式方法。它旨在将输入数据分为不同的组，使得每个组内的数据点之间的相似度高于组间的相似度。聚类算法是无监督学习的一种形式，因为它不需要标记的训练数据。常见的聚类算法包括K均值、层次聚类和DBSCAN等。

KNN和Kmeans都是常见的机器学习算法，但它们所属的方法不同：

KNN（K最近邻）是一种基于实例的算法，可以用于分类和回归任务。它基于最近的K个训练实例来预测新的数据点所属的类别或值。KNN是一种判别式方法，因为它直接学习输入和输出之间的映射关系。
Kmeans是一种聚类算法，旨在将输入数据分为K个不同的簇或组。它使用数据点之间的距离或相似度来确定每个簇的中心，然后将数据点分配到最近的中心。Kmeans是一种生成式方法，因为它直接学习数据点之间的相似度。