深度学习笔记02——机器学习基础

最新推荐文章于 2024-06-14 09:30:00 发布

知止233

最新推荐文章于 2024-06-14 09:30:00 发布

阅读量283

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/qq_42115122/article/details/104021267

版权

参考资料来自github和《深度学习》此书

1 导言

机器学习起源于上世纪50年代，1959年在IBM工作的Arthur Samuel设计了一个下棋程序，这个程序具有学习的能力，它可以在不断的对弈中提高自己。由此提出了“机器学习”这个概念。
当下研究火热的人工智能，机器学习是其的一个子集。机器学习在很多方面已经有了许多的应用，使用各种算法，如支持向量机，决策树、随机森林等等，一定程度上可以帮助人们完成一些数据预测，自动化，自动决策，最优化等初步替代脑力的任务。

2 基本概念

2.1 机器学习的本质

机器学习本质来讲就是一个算法黑箱，有输入有输出。一般来讲，机器学习的任务不是无中生有，让机器去发现事务规律，而是人们将事务规律转换为机器算法，让算法提取中数据所蕴含的规律，这就叫做机器学习。如果输入机器的数据是带有标签的，就称作有监督学习。如果是无标签的，就是无监督学习。
那么我所谓的“学习”具体指什么呢？Mithchell（1997）提供了一个简洁的定义：“对于某类任务 $T$ 和性能度量 $P$ ，一个计算机程序被认为可以从经验 $E$ 中学习是指，通过经验 $E$ 改进后，它在任务 $T$ 上由性能度量 $P$ 衡量的性能有所提升。”
任务 $T$ ：分类、回归、转录、机器翻译、去噪…
度量 $P$ ：准确度、错误率…

2.2 机器学习的分类

主要分为四类

2.2.1 监督学习

特点：监督学习是使用已知正确答案的示例来训练网络。已知数据和其一一对应的标签，训练一个预测模型，将输入数据映射到标签的过程。
常见应用场景：监督式学习的常见应用场景如分类问题和回归问题。
常用算法举例：支持向量机(Support Vector Machine, SVM)，朴素贝叶斯(Naive Bayes)，逻辑回归(Logistic Regression)，K近邻(K-Nearest Neighborhood, KNN)，决策树(Decision Tree)，随机森林(Random Forest)，AdaBoost以及线性判别分析(Linear Discriminant Analysis, LDA)等。

2.2.2 非监督学习

定义：在非监督式学习中，数据并不被特别标识，适用于你具有数据集但无标签的情况。学习模型是为了推断出数据的一些内在结构。
常见应用场景：常见的应用场景包括关联规则的学习以及聚类等。
算法举例：常见算法包括Apriori算法以及k-Means算法。
Apriori算法

2.2.3半监督式学习

特点：在此学习方式下，输入数据部分被标记，部分没有被标记，这种学习模型可以用来进行预测。
常见应用场景：应用场景包括分类和回归，算法包括一些对常用监督式学习算法的延伸，通过对已标记数据建模，在此基础上，对未标记数据进行预测。
算法举例：常见算法如图论推理算法（Graph Inference）或者拉普拉斯支持向量机（Laplacian SVM）等。

2.2.4 弱监督学习

特点：弱监督学习可以看做是有多个标记的数据集合，次集合可以是空集，单个元素，或包含多种情况（没有标记，有一个标记，和有多个标记）的多个元素。数据集的标签是不可靠的，这里的不可靠可以是标记不正确，多种标记，标记不充分，局部标记等。已知数据和其一一对应的弱标签，训练一个智能算法，将输入数据映射到一组更强的标签的过程。标签的强弱指的是标签蕴含的信息量的多少，比如相对于分割的标签来说，分类的标签就是弱标签。
算法举例：举例，给出一张包含气球的图片，需要得出气球在图片中的位置及气球和背景的分割线，这就是已知弱标签学习强标签的问题。

2.3 分类算法

分类算法和回归算法是不同的。分类模型是认为模型的输出是离散的，例如大自然的生物被划分为不同的种类，是离散的。回归模型的输出是连续的，例如人的身高变化过程是一个连续过程，而不是离散的。
因此，在实际建模过程时，采用分类模型还是回归模型，取决于你对任务（真实世界）的分析和理解。

2.3.1 分类算法的优缺点

常见算法小结

2.3.2 评价方法

ROC曲线和PR曲线详解

如果一个学习器的P-R曲线被另一个学习器的P-R曲线完全包住，则可断言后者的性能优于前者，例如上面的A和B优于学习器C。但是A和B的性能无法直接判断，我们可以根据曲线下方的面积大小来进行比较，但更常用的是平衡点或者是F1值。平衡点（BEP）是P=R时的取值，如果这个值较大，则说明学习器的性能较好。而F1 = 2 * P * R ／( P + R )，同样，F1值越大，我们可以认为该学习器的性能较好。

3 梯度下降

梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法。在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。反过来，如果我们需要求解损失函数的最大值，这时就需要用梯度上升法来迭代了。在机器学习中，基于基本的梯度下降法发展了两种梯度下降方法，分别为随机梯度下降法和批量梯度下降法。（摘自百度百科）

在这里插入图片描述

在这里插入图片描述
梯度下降是机器学习中常见优化算法之一，梯度下降法有以下几个作用：
（1）梯度下降是迭代法的一种，可以用于求解最小二乘问题。
（2）在求解机器学习算法的模型参数，即无约束优化问题时，主要有梯度下降法（Gradient Descent）和最小二乘法。
（3）在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。
（4）如果我们需要求解损失函数的最大值，可通过梯度上升法来迭代。梯度下降法和梯度上升法可相互转换。
（5）在机器学习中，梯度下降法主要有随机梯度下降法和批量梯度下降法。

当然梯度下降也存在缺点：
（1）靠近极小值时收敛速度减慢。
（2）直线搜索时可能会产生一些问题。
（3）可能会“之字形”地下降。

知止233

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习笔记02——机器学习基础

1 导言机器学习起源于上世纪50年代，1959年在IBM工作的Arthur Samuel设计了一个下棋程序，这个程序具有学习的能力，它可以在不断的对弈中提高自己。由此提出了“机器学习”这个概念。当下研究火热的人工智能，机器学习是其的一个子集。机器学习在很多方面已经有了许多的应用，使用各种算法，如支持向量机，决策树、随机森林等等，一定程度上可以帮助人们完成一些数据预测，自动化，自动决策，最优化等...
复制链接

扫一扫