Datawhale X 李宏毅苹果书 AI夏令营入门班

刘十三508

已于 2024-08-27 15:43:38 修改

阅读量926

点赞数 6

文章标签：机器学习深度学习

于 2024-08-27 15:31:37 首次发布

本文链接：https://blog.csdn.net/qq_68978526/article/details/141600694

版权

目录

机器学习

随着要找的函数不同，机器学习有不同的类别，主要有三种——回归、分类、结构化学习。

1.回归

2.分类

3.结构化学习

模型基础知识：

基本参数：

损失：

机器学习找函数的过程，分成 3 个步骤

机器学习

顾名思义，机器具备有学习的能力。具体来讲，机器学习就是让机器具备找一个函数的能力

随着要找的函数不同，机器学习有不同的类别，主要有三种——回归、分类、结构化学习。

1.回归

假设要找的函数的输出是一个数值，一个标量（scalar），这种机器学习的任务称为回归
假设机器要预测未来某一个时间的 PM2.5 的数值。机器要找一个函数 f，其输入是可能是种种跟预测 PM2.5 有关的指数，包括今天的 PM2.5 的数值、平均温度、平均的臭氧浓度等等，输出是明天中午的 PM2.5的数值，找这个函数的任务称为回归（regression）。

2.分类

分类任务要让机器做选择题。人类先准备好一些选项，这些选项称为类别（class），现在要找的函数的输出就是从设定好的选项里面选择一个当作输出，该任务称为分类
举个例子，每个人都有邮箱账户，邮箱账户里面有一个函数，该函数可以检测一封邮件是否为垃圾邮件。分类不一定只有两个选项，也可以有多个选项。

3.结构化学习

机器不只是要做选择题或输出一个数字，而是产生一个有结构的物体，比如让机器画一张图，写一篇文章。这种叫机器产生有结构的东西的问题称为结构化学习。

模型基础知识：

基本参数：

带有未知的参数（parameter）的函数称为模型（model）。模型在机器学习里面，就是一个带有未知的参数的函数。以y = b + w ∗ x1为例，特征（feature） x1 是这个函数里面已知的，而 w 跟 b 是未知的参数。w 称为权重（weight），b 称为偏置（bias）。

损失：

平均绝对误差：e = |yˆ − y|
均方误差：e = (y ˆ − y)2
交叉熵：当y 和 yˆ 都是概率分布时可能会用到
对于其他特定的问题，会有其适合的损失函数，并不止上面的三种。

机器学习找函数的过程，分成 3 个步骤

第一个步骤是写出一个带有未知参数的函数 f，其能预测未来观看次数。比如将函数写成y = b + wx1，其中，y 是准备要预测的东西，要预测的是今天（2 月 26 日）这个频道总共观看的人，y 就假设是今天总共的观看次数。x1 是这个频道，前一天（2 月 25 日）总共的观看次数，y 跟 x1 都是数值，b 跟 w 是未知的参数，它是准备要通过数据去找出来的，w 跟 b 是未知的，只是隐约地猜测
带有未知的参数（parameter）的函数称为模型（model）。模型在机器学习里面，就是一个带有未知的参数的函数，特征（feature） x1 是这个函数里面已知的，它是来自于后台的信息，2 月 25 日点击的总次数是已知的，而 w 跟 b 是未知的参数。w 称为权重（weight），b 称为偏置（bias）。

第 2 个步骤是定义损失（loss），损失也是一个函数。这个函数的输入是模型里面的参数，模型是 y = b + w ∗ x1，而 b 跟 w 是未知的，损失是函数 L(b, w)，其输入是模型参数 b 跟w。

接下来进入机器学习的第 3 步：解一个最优化的问题。找一个 w 跟 b，把未知的参数找一个数值出来，看代哪一个数值进去可以让损失 L 的值最小，就是要找的 w 跟 b，这个可以让损失最小的 w 跟 b 称为 w∗ 跟 b∗ 代表它们是最好的一组 w 跟 b，可以让损失的值最小。
梯度下降（gradient descent）是经常会使用优化的方法。为了要简化起见，先假设只有一个未知的参数 w，b 是已知的。w 代不同的数值的时候，就会得到不同的损失，这一条曲线就是误差表面，只是刚才在前一个例子里面，误差表面是 2 维的，这边只有一个参数，所以这个误差表面是 1 维的。怎么样找一个 w 让损失的值最小呢? 如图 1.3 所示，首先要随机选取一个初始的点 w0。接下来计算 ∂L∂w |w=w0，在 w 等于 w0 的时候，参数 w 对损失的微分。计算在这一个点，在 w0 这个位置的误差表面的切线斜率，也就是这一条蓝色的虚线，它的斜率，如果这一条虚线的斜率是负的，代表说左边比较高，右边比较低。在这个位置附近，左边比较高，右边比较低。如果左边比较高右边比较低的话，就把 w 的值变大，就可以让损失变小。如果算出来的斜率是正的，就代表左边比较低右边比较高。左边比较低右边比较高，如果左边比较低右边比较高的话，就代表把 w 变小了，w 往左边移，可以让损失的值变小。
算微分就是左右环视，它会知道左边比较高还是右边比较高，看哪边比较低，它就往比较低的地方跨出一步。这一步的步伐的大小取决于两件事情：• 第一件事情是这个地方的斜率，斜率大步伐就跨大一点，斜率小步伐就跨小一点。• 另外，学习率（learning rate）η 也会影响步伐大小。学习率是自己设定的，如果 η 设大一点，每次参数更新就会量大，学习可能就比较快。如果 η 设小一点，参数更新就很慢，每次只会改变一点点参数的数值。这种在做机器学习，需要自己设定，不是机器自己找出来的，称为超参数（hyperparameter）。