【Datawhale X 李宏毅苹果书 AI夏令营】

最新推荐文章于 2024-09-27 10:58:53 发布

4697

最新推荐文章于 2024-09-27 10:58:53 发布

阅读量697

点赞数 11

文章标签：人工智能

本文链接：https://blog.csdn.net/2301_76193364/article/details/141504360

版权

一、机器学习基础

1.1 Python中的机器学习包及安装使用

Python机器学习包：sklearn

先使用conda命令安装机器学习包：sklearn

安装命令：第一步，先在conda中进入当前notebook中的环境

第2步，安装该包：conda install scikit-learn

1.2什么是特征和标签

特征：输入
标签：输出

1.3 机器学习分类

机器学习，顾名思义，机器具备有学习的能力。具体来讲，机器学习就是让机器具备找一个函数的能力。
机器学习方法的分类，根据所处理的数据种类的不同，可以分为监督学习、无监督学习和强化学习等几种类型，如下图所示
在这里插入图片描述
所谓监督学习，简单理解就是，训练集样本是带标签的。
无监督学习，即训练集样本是不带标签的，即没有老师自导，学生（模型）自学的过程。
强化学习，与监督学习类似，与监督学习不同的是，强化学习不需要带标签的输入输出对，同时也无需对非最优解的精确地纠正。

1.4 机器学习任务

学习任务可大致划分为两大类“监督学习” (supervised learning) 和“无监督学习” (unsupervised learning)，其中，分类和回归任务是前者的代表，而聚类则是后者的代表。

本文以西瓜问题为例来通俗定义分类、回归和聚类问题：

若我们欲预测的是离散值，例如”好瓜“、”坏瓜“，此类学习任务称为”分类“ (classification);
若欲预测的是连续值，例如西瓜成熟度 0.95、 0.37，此类学习任务称为”回归“ (regression)。
若事先不知道西瓜的类别，我们还可以对西瓜做“聚类” (clustering)，即将训练集中的西瓜分成若干组，每组称为一个“簇” (cluster); 这些自动形成的簇可能对应一些潜在的概念划分，例如“浅色瓜”、 “深色瓜”等。
值得注意的是，机器学习算法的最终目标是使学习到的模型能很好地适用于“新样本”（方差小），而不仅仅只是在训练集样本上表现好（偏差小）。学得模型适用于于新样本的能力，称为“泛化”（generalization）能力。

1.5 损失

平均绝对误差（Mean Absolute Error，MAE）
在这里插入图片描述

均方误差（Mean SquaredError，MSE）
在这里插入图片描述

交叉熵（cross entropy）
在这里插入图片描述
损失

1.6 梯度下降

为什么需要梯度下降
梯度下降是机器学习中常见优化算法之一，梯度下降法有以下几个作用：
（ 1 ）梯度下降是迭代法的一种，可以用于求解最小二乘问题。
（ 2 ）在求解机器学习算法的模型参数，即无约束优化问题时，主要有梯度下降法（ Gradient Descent ）和最小二乘法。
（ 3 ）在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。
（ 4 ）如果我们需要求解损失函数的最大值，可通过梯度上升法来迭代。梯度下降法和梯度上升法可相互转换。
（ 5 ）在机器学习中，梯度下降法主要有随机梯度下降法和批量梯度下降法。

如何对梯度下降法进行调优
实际使用梯度下降法时，各项参数指标不能一步就达到理想状态，对梯度下降法调优主要体现在以下几个方面：

算法迭代步长选择
在算法参数初始化时，有时根据经验将步长初始化为 1 。实际取值取决于数据样本。可以从大到小，多取一些值，分别运行算法看迭代效果，如果损失函数在变小，则取值有效。如果取值无效，说明要增大步长。但步长太大，有时会导致迭代速度过快，错过最优解。步长太小，迭代速度慢，算法运行时间长。
参数的初始值选择
初始值不同，获得的最小值也有可能不同，梯度下降有可能得到的是局部最小值。如果损失函数是凸函数，则一定是最优解。由于有局部最优解的风险，需要多次用不同初始值运行算法，关键损失函数的最小值，选择损失函数最小化的初值。
标准化处理
由于样本不同，特征取值范围也不同，导致迭代速度慢。为了减少特征取值的影响，可对特征数据标准化，使新期望为 0 ，新方差为 1 ，可节省算法运行时间。