机器学习综述

最新推荐文章于 2021-04-01 16:44:17 发布

qq_24941515

最新推荐文章于 2021-04-01 16:44:17 发布

阅读量774

点赞数

本文链接：https://blog.csdn.net/qq_24941515/article/details/103910533

版权

本文详细介绍了机器学习的四种类型：监督学习、非监督学习、半监督学习和弱监督学习，以及它们的特点、应用场景和常见算法。在监督学习中，算法如SVM、决策树和深度学习被广泛应用。非监督学习常用于聚类问题，如Apriori和k-Means算法。半监督学习结合了已标记和未标记数据。弱监督学习则处理不完全或模糊的标签数据。监督学习的步骤包括数据集创建、数据增强、特征工程、构建模型、训练、验证和测试。此外，文章还讨论了分类算法的优缺点和评估方法，如正确率、召回率和F1-score，以及ROC和PR曲线在模型评价中的作用。

摘要由CSDN通过智能技术生成

根据数据类型的不同，对一个问题的建模有不同的方式。依据不同的学习方式和输入数据，机器学习主要分为以下四种学习方式。
1.1 监督学习
特点：监督学习是使用已知正确答案的示例来训练网络。已知数据和其一一对应的标签，训练一个预测模型，将输入数据映射到标签的过程。
常见应用场景：监督式学习的常见应用场景如分类问题和回归问题。
算法举例：常见的有监督机器学习算法包括支持向量机(Support Vector Machine, SVM)，朴素贝叶斯(Naive Bayes)，逻辑回归(Logistic Regression)，K近邻(K-Nearest Neighborhood, KNN)，决策树(Decision Tree)，随机森林(Random Forest)，AdaBoost以及线性判别分析(Linear Discriminant Analysis, LDA)等。深度学习(Deep Learning)也是大多数以监督学习的方式呈现。
1.2 非监督式学习
定义：在非监督式学习中，数据并不被特别标识，适用于你具有数据集但无标签的情况。学习模型是为了推断出数据的一些内在结构。
常见应用场景：常见的应用场景包括关联规则的学习以及聚类等。
算法举例：常见算法包括Apriori算法以及k-Means算法。
1.3 半监督式学习
特点：在此学习方式下，输入数据部分被标记，部分没有被标记，这种学习模型可以用来进行预测。
常见应用场景：应用场景包括分类和回归，算法包括一些对常用监督式学习算法的延伸，通过对已标记数据建模，在此基础上，对未标记数据进行预测。
算法举例：常见算法如图论推理算法（Graph Inference）或者拉普拉斯支持向量机（Laplacian SVM）等。
1.4 弱监督学习
特点：弱监督学习可以看做是有多个标记的数据集合，次集合可以是空集，单个元素，或包含多种情况（没有标记，有一个标记，和有多个标记）的多个元素。数据集的标签是不可靠的，这里的不可靠可以是标记不正确，多种标记，标记不充分，局部标记等。已知数据和其一一对应的弱标签，训练一个智能算法，将输入数据映射到一组更强的标签的过程。标签的强弱指的是标签蕴含的信息量的多少，比如相对于分割的标签来说，分类的标签就是弱标签。
算法举例：举例，给出一张包含气球的图片，需要得出气球在图片中的位置及气球和背景的分割线，这就是已知弱标签学习强标签的问题。
在企业数据应用的场景下，人们最常用的可能就是监督式学习和非监督式学习的模型。在图像识别等领域，由于存在大量的非标识的数据和少量的可标识数据，目前半监督式学习是一个很热的话题。
1.5 监督学习有哪些步骤
监督学习是使用已知正确答案的示例来训练网络，每组训练数据有一个明确的标识或结果。想象一下，我们可以训练一个网络，让其从照片库中（其中包含气球的照片）识别出气球的照片。以下就是我们在这个假设场景中所要采取的步骤。
步骤1：数据集的创建和分类首先，浏览你的照片（数据集），确定所有包含气球的照片，并对其进行标注。然后，将所有照片分为训练集和验证集。目标就是在深度网络中找一函数，这个函数输入是任意一张照片，当照片中包含气球时，输出1，否则输出0。
步骤2：数据增强（Data Augmentation）当原始数据搜集和标注完毕，一般搜集的数据并不一定包含目标在各种扰动下的信息。数据的好坏对于机器学习模型的预测能力至关重要，因此一般会进行数据增强。对于图像数据来说，数据增强一般包括，图像旋转，平移，颜色变换，裁剪，仿射变换等。
步骤3：特征工程（Feature Engineering）一般来讲，特征工程包含特征提取和特征选择。常见的手工特征(Hand-Crafted Feature)有尺度不变特征变换(Scale-Invariant Feature Transform, SIFT)，方向梯度直方图(Histogram of Oriented Gradient, HOG)等。由于手工特征是启发式的，其算