读书学习笔记 # Datawhale X 李宏毅苹果书 AI夏令营

🚩学习目标:

  • Task 1 《深度学习详解》- 1.1 通过案例了解机器学习
  • Task 2 《深度学习详解》- 1.2 了解线性模型
  • Task 3 《深度学习详解》- 2 机器学习框架&实践攻略
  • (选修)《深度学习详解》- 3.6 分类&损失函数
  • (选修)实践任务:HW2(DNN)

🚩学习内容:

欢迎去大家各大电商平台选购纸质版苹果书《深度学习详解》
基于上述书籍拓展

引用内容为书本原话 图片基本上来源于书中
我以自问自答的方式输出内容


🚩 Task 1 通过案例了解机器学习


🎯机器学习(Machine Learning,ML)和深度学习(Deep Learning,DL)的基本概念

什么是机器学习

人工智能的一个分支。机器学习范畴比人工智能概念略小,深度学习的底层是神经网络。机器学习是指用计算机模拟人类学习行为的的技术用来从已知的数据中获取新的知识。

机器学习,顾名思义,机器具备有学习的能力。具体来讲,机器学习就是让机器具备找一个函数的能力。机器具备找函数的能力以后,它可以做很多事。

比如语音识别,机器听一段声音,产生这段声音对应的文字。我们需要的是一个函数,该函数的输入是声音信号,输出是这段声音信号的内容。

就是让机器的输入映射到某个函数之后可以得到输出

🎯什么是回归(regression)

随着要找的函数不同,机器学习有不同的类别。假设要找的函数的输出是一个数值,一个标量(scalar),这种机器学习的任务称为回归

机器要找一个函数 f,其输入是可能是种种跟预测 PM2.5 有关的指数,包括今天的 PM2.5 的数值、平均温度、平均的臭氧浓度等等,输出是明天中午的 PM2.5的数值,找这个函数的任务称为回归(regression)

机器要找一个函数f(x),其输入是可能是与预测目标有关的数值x,输出是对于下一次的预测值f(x),找这个函数的任务称为回归(regression)。

隐藏任务①: 找出本篇中形如回归(regression)加粗字体的术语,并用自己的话进行解释,列成表格,与学习群的其他小伙伴讨论你的理解和搜索到的相关案例

术语解释
分类将数据划分为多个离散的类别的任务,预测输入的样本所属的类别
回归通过对输入数据进行学习,建立一个连续的函数关系,预测数值型的输出结果
机器学习一种从数据中自动学习模式和模型的方法,使计算机能够根据之前的经验来进行预测或决策
深度学习一种机器学习的子领域,通过模拟人脑的神经网络结构,对大规模数据进行学习和表达复杂模式
损失衡量预测的输出与实际值之间的差异的函数,用于评估模型的训练效果
梯度下降一种优化算法,通过反复迭代的方式,沿着目标函数的负梯度方向调整模型参数的值,以最小化损失函数

🎯什么是分类(classification)

分类任务要让机器做选择题。人类先准备好一些选项,这些选项称为类别(class),现在要找的函数的输出就是从设定好的选项里面选择一个当作输出,该任务称为分类。
举个例子,每个人都有邮箱账户,邮箱账户里面有一个函数,该函数可以检测一封邮件是否为垃圾邮件。分类不一定只有两个选项,也可以有多个选项。

根据某些特征把不同数据分成不同的类别。

🎯什么是结构化学习

机器不只是要做选择题或输出一个数字,而是产生一个有结构的物体,比如让机器画一张图,写一篇文章。这种叫机器产生有结构的东西的问题称为结构化学习。

就是根据输入的东西的某种规律生产某种相似结构的东西

🎯机器学习找函数的三个步骤

隐藏任务③:找出机器学习找函数的3个步骤!并查找资料,交叉佐证这些步骤。

机器学习找函数的过程,分成3个步骤。

📌 第1个步骤是写出一个带有未知参数的函数f,其能预测未来观看次数。

y = b + w ∗ x1,而 b 跟 w 是未知的。
带有未知的参数(parameter)的函数称为模型(model)。
模型在机器学习里面,就是一个带有未知的参数的函数,特征(feature) x 1 x_1 x1 是这个函数里面已知的,它是来自于后台的信息,2 月 25 日点击的总次数是已知的,而 w 跟 b 是未知的参数。
w 称为权重(weight),b 称为偏置(bias)。

📌第2个步骤是定义损失(loss),损失也是一个函数。

估测的值跟实际的值之间的差距,其实有不同的计算方法,计算 y 与 yˆ 之间绝对值的差距,如式 (1.6) 所示,称为平均绝对误差(Mean Absolute Error,MAE)

在这里插入图片描述

如果算 y 与 yˆ 之间平方的差距,如式 (1.7) 所示,则称为均方误差(Mean SquaredError,MSE)。
在这里插入图片描述

有一些任务中 y 和 yˆ 都是概率分布,这个时候可能会选择交叉熵(cross entropy),这个是机器学习的第 2 步。

交叉熵是信息论中用来度量两个概率分布之间差异的一种方法。在机器学习中,交叉熵经常被用来作为损失函数,用来度量预测结果与真实结果之间的差异。

对于分类问题,交叉熵可以用来度量预测结果的概率分布与真实结果的概率分布之间的差异。交叉熵的计算公式如下:

H ( p , q ) = − ∑ p ( x ) ∗ l o g ( q ( x ) ) H(p,q) = -∑ p(x) * log(q(x)) H(p,q)=p(x)log(q(x))

其中,p(x)表示真实结果的概率分布,q(x)表示预测结果的概率分布。

交叉熵的值越小,表示预测结果与真实结果越接近,模型的性能也越好。因此,通过最小化交叉熵,可以优化模型的预测能力。

在深度学习中,交叉熵通常作为损失函数与激活函数一起使用,用来训练神经网络模型。通过反向传播算法,可以根据交叉熵的值来调整模型的参数,使得模型的预测结果与真实结果更加接近。

📌机器学习的第 3 步:解一个最优化的问题。

找一个 wb,把未知的参数找一个数值出来,看代哪一个数值进去可以让损失 L 的值最小,就是要找的 wb,这个可以让损失最小的 wb 称为 w∗b∗ 代表它们是最好的一组 wb,可以让损失的值最小。

梯度下降(gradient descent)是经常会使用优化的方法。

试了不同的参数,计算它的损失,画出来的等高线图称为误差表面(error surface)。
在这个等高线图上面,越偏红色系,代表计算出来的损失越大,就代表这一组 w 跟 b 越差。如果越偏蓝色系,就代表损失越小,就代表这一组 w 跟 b 越好,拿这一组 w 跟 b,放到函数里面,预测会越精准。在这里插入图片描述

学习率(learning rate)η 也会影响步伐大小
学习率是自己设定的,如果 η 设大一点,每次参数更新就会量大,学习可能就比较快。如果 η 设小一点,参数更新就很慢,每次只会改变一点点参数的数值。
这种在做机器学习,需要自己设定,不是机器自己找出来的,称为超参数(hyperparameter)。

🎯为什么损失可以是负的?

在这里插入图片描述

🎯梯度下降有一个很大的问题

梯度下降有一个很大的问题,没有找到真正最好的解,没有找到可以让损失最小的 w。
在图 1.4 所示的例子里面,把 w 设定在最右侧红点附近这个地方可以让损失最小。但如果在梯度下降中, w 0 w^0 w0 是随机初始的位置,也很有可能走到 wT 这里,训练就停住了,无法再移动 w 的位置。右侧红点这个位置是真的可以让损失最小的地方,称为全局最小值(global minima),而 wT 这个地方称为局部最小值(local minima),其左右两边都比这个地方的损失还要高一点,但是它不是整个误差表面上面的最低点。

在这里插入图片描述
推广到多参数(w,b)的话

假设有两个参数,随机初始值为 w 0 w^0 w0, b 0 b^0 b0。要计算 w, b 跟损失的微分,计算在 w = w 0 w^0 w0 的位置,b = b 0 b^0 b0 的位置,要计算 w 对 L 的微分,计算 b 对 L 的微分计算完后更新 w 跟 b,把 w 0 w^0 w0 减掉学习率乘上微分的结果得到 ,把 b 0 b^0 b0 减掉学习率乘上微分的结果得到 b 1 b^1 b1

在这里插入图片描述

就是反复同样的步骤,就不断的更新 wb,期待最后,可以找到一个最好的 w,w∗ 跟最好的 b∗. 如图 1.5 所示,随便选一个初始的值,先计算一下 w 对 L 的微分,跟计算一下 b 对 L 的微分,接下来更新 wb,更新的方向就是 ∂L/∂w,乘以 η 再乘以一个负号,∂L/∂b,算出这个微分的值,就可以决定更新的方向,可以决定 w 要怎么更新。把 wb 更新的方向结合起来,就是一个向量,就是红色的箭头,再计算一次微分,再决定要走什么样的方向,把这个微分的值乘上学习率,再乘上负号,我们就知道红色的箭头要指向那里,就知道如何移动 wb 的位置,一直移动,期待最后可以找出一组不错的 w, b

🚩Task 2 了解线性模型

🎯线性模型

书中举例了一个预测观看人数的例子

每隔 7 天它一个循环,如果一个模型参考前 7 天的数据,把 7天前的数据,直接复制到拿来当作预测的结果,也许预测的会更准也说不定,所以我们就要修改一下模型。通常一个模型的修改,往往来自于对这个问题的理解,即领域知识

机器学习领域的领域知识是指机器学习算法、技术和应用方面的专业知识。
包括机器学习算法、数据预处理、特征工程、模型评估和选择的知识。

这些模型都是把输入的特征 x 乘上一个权重,再加上一个偏置就得到预测的结果,这样的模型称为线性模型(linear model)

📌分段线性曲线

红色的曲线可以看作是一个常数再加上一群 Hard Sigmoid 函数。Hard Sigmoid 函数的特性是当输入的值,当 x 轴的值小于某一个阈值(某个定值)的时候,大于另外一个定值阈值的时候,中间有一个斜坡。所以它是先水平的,再斜坡,再水平的。所以红色的线可以看作是一个常数项加一大堆的蓝色函数(Hard Sigmoid)。常数项设成红色的线跟 x 轴的交点一样大。

在这里插入图片描述

常数项怎么加上蓝色函数后,变成红色的这一条线?

  1. 蓝线 1 函数斜坡的起点,设在红色函数的起始的地方,第 2 个斜坡的终点(最高点)|(第 1 个蓝色函数斜坡的终点) 设在第一个转角处,让第 1 个蓝色函数的斜坡和红色函数的斜坡的斜率是一样的,这个时候把 线0+线1 就可以得到红色曲线左侧的线段。
  2. 再加第 2 个蓝色的函数,所以第2 个蓝色函数的斜坡就在红色函数的第一个转折点到第 2 个转折点之间,让第 2 个蓝色函数的斜率跟红色函数的斜率一样,这个时候把 线0+线1+线2,就可以得到红色函数左侧和中间的线段。
  3. 接下来第 3 个部分,第 2 个转折点之后的部分,就加第 3 个蓝色的函数,第 3 个蓝色的函数坡度的起始点设的跟红色函数转折点一样,蓝色函数的斜率设的跟红色函数斜率一样
  4. 接下来把 线0+线1+线2+线3全部加起来,就得到完整红色的线。
    (线0、线1、线2、线3 为图1.8中线段)

在这里插入图片描述

所以红色线,即分段线性曲线(piecewise linear curve)可以看作是一个常数,再加上一堆蓝色的函数。

大量不同的蓝色函数,加上一个常数以后就可以组出任意的分段线性曲线。
如果分段线性曲线越复杂,转折的点越多,所需的蓝色函数就越多。
反之,越多蓝色函数的话可以组成越复杂的分段线性曲线。

可以在这样的曲线(图1.9)上面,先取一些点并连起来变成一个分段线性曲线。这个分段线性曲线跟非常接近原来的曲线,如果点取的够多或点取的位置适当,分段线性曲线就可以逼近这一个连续的曲线。

在这里插入图片描述

所以可以用分段线性曲线去逼近任何的连续的曲线,而每个分段线性曲线都可以用一大堆蓝色的函数组合起来。也就是说,只要有足够的蓝色函数把它加起来,就可以变成任何连续的曲线。

我们可以用任意多的蓝色函数来模拟出曲线。
极限的思路来看:就是只有取得足够多的点并且相连接,就可以无限多的直线代替曲线。

📌如何表示方程

在这里插入图片描述

如果 x1 的值,趋近于无穷大的时候,e−(b+wx1) 这一项就会消失,当 x1 非常大的时候,这一条就会收敛在高度为 c 的地方。如果 x1 负的非常大的时候,分母的地方就会非常大,y的值就会趋近于 0。
所以可以用这样子的一个函数逼近这一个蓝色的函数,即 Sigmoid 函数,Sigmoid 函数就是 S 型的函数。
因为它长得是有点像是 S 型,所以叫它 Sigmoid 函数。为了简洁,去掉了指数的部分,蓝色函数的表达式为

y = c σ ( b + w x 1 ) ( 1.15 ) y = cσ(b + wx1) (1.15) y=cσ(b+wx1)(1.15)

所以可以用 Sigmoid 函数逼近 Hard Sigmoid 函数。

y = c 1 + e − ( b + w x 1 ) y = \frac{c}{ 1+ e^{-(b+wx1)}} y=1+e(b+wx1)c

调整这里的 bw c 可以制造各种不同形状的 Sigmoid 函数, 用各种不同形状的 Sigmoid函数去逼近 Hard Sigmoid 函数。

如图 1.11 所示,如果改 w,就会改变斜率,就会改变斜坡的坡度。如果改了 b,就可以把这一个 Sigmoid 函数左右移动;如果改 c,就可以改变它的高度。所以只要有不同的 w 不同的 b 不同的 c,就可以制造出不同的 Sigmoid 函数,把不同的Sigmoid 函数叠起来以后就可以去逼近各种不同的分段线性函数;分段线性函数可以拿来近似各种不同的连续的函数。

在这里插入图片描述
在这里插入图片描述

我们可以不只用一个特征 x1,可以用多个特征代入不同的 c, b, w,组合出各种不同的函数,从而得到更有 灵活性(flexibility) 的函数,如图 1.13 所示。
j 来代表特征的编号。如果要考虑前 28 天,j 就是 1 到 28。

在这里插入图片描述

无论是拿行或拿列都可以,把 W 的每一列或每一行“拼”成一个长的向量,把 b, cT, b” 拼” 上来,这个长的向量直接用 θ 来表示。
所有的未知的参数,一律统称 θ。

🎈优化是找一个可以让损失最小的参数,是否可以穷举所有可能的未知参数的值?

在这里插入图片描述

🎈刚才的例子里面有 3 个 Sigmoid,为什么是 3 个,能不能 4 个或更多?

在这里插入图片描述

📌定义损失

之前是 L(w, b),因为 w 跟 b 是未知的。
现在未知的参数很多了,再把它一个一个列出来太累了,所以直接用 θ 来统设所有的参数,所以损失函数就变成 L(θ)

损失函数能够判断 θ 的好坏,其计算方法跟刚才只有两个参数的时候是一样的。
先给定 θ 的值,即某一组 W, b, cT, b 的值,再把一种特征 x 代进去,得到估测出来的 y,再计算一下跟真实的标签之间的误差 e。把所有的误差通通加起来,就得到损失。

在这里插入图片描述
在这里插入图片描述

要找到 θ θ θ让损失越小越好,可以让
损失最小的一组 θ θ θ称为 θ ∗ θ_∗ θ。一开始要随机选一个初始的数值 θ 0 θ_0 θ0
接下来计算每一个未知的参数对 L 的微分,得到向量 g g g,即可以让损失变低的函数

在这里插入图片描述

假设有 1000 个参数,这个向量的长度就是 1000,这个向量也称为梯度, ∇ L ∇L L代表梯度。
L( θ 0 θ_0 θ0) 是指计算梯度的位置,是在 θ 等于 θ 0 θ_0 θ0 的地方。
计算出 g 后,接下来跟新参数, θ 0 θ_0 θ0 代表它是一个起始的值,它是一个随机选的起始的值,代表 θ 1 θ_1 θ1 更新过一次的结果, θ 2 0 θ^0_2 θ20 减掉微分乘以,减掉 η 乘上微分的值,得到 θ 2 1 θ^1_2 θ21,以此类推,就可以把 1000 个参数都更新了。

在这里插入图片描述

假设参数有 1000 个, θ 0 θ_0 θ0 就是 1000 个数值,1000 维的向量,g 是 1000 维的向量, θ 1 θ_1 θ1 也是 1000 维的向量。 整个操作就是这样,由 θ 0 θ_0 θ0 算梯度,根据梯度去把 θ 0 θ_0 θ0 更新成 θ 1 θ_1 θ1,再算一次梯度,再根据梯度把 θ 1 θ_1 θ1 再更新成 θ 2 θ_2 θ2,再算一次梯度把 θ 2 θ_2 θ2 更新成 θ 3 θ_3 θ3,以此类推,直到不想做。
在这里插入图片描述

或者计算出梯度为 0 向量,导致无法再更新参数为止,不过在实现上几乎不太可能梯度为 0,通常会停下来就是我们不想做了。

📌实现上的细节

🎈批量(batch)

在这里插入图片描述

实现上有个细节的问题,实际使用梯度下降的时候,如图 1.17 所示,会把 N 笔数据随机分成一个一个的批量(batch),一组一组的。

在深度学习中,批量(Batch) 指的是计算一次成本(cost) 需要的输入数据个数。当数据集比较大时,一次性处理所有样本在计算和存储上会有困难,因此会采用一次输入一定量的样本来进行训练。

如果数据集比较小,可以将全体数据看做一个批量,即把数据集中每个样本都计算损失(loss)然后取其平均值当做成本(cost)。

批量学习的优点:能更好地代表样本总体从而更准确地确定下降方向,对梯度向量有更精确的估计等。

🎈回合(epoch)

把所有的批量都看过一次,称为一个回合(epoch),每一次更新参数叫做一次更新。更新跟回合是不同的东西。每次更新一次参数叫做一次更新,把所有的批量都看过一遍,叫做一个回合。

回合(Epoch) 指的是遍历全部数据集一次。
在一个回合中,模型会对数据集中的所有样本都进行处理和学习。

🎯模型变形

其实还可以对模型做更多的变形,不一定要把 Hard Sigmoid 换成 Soft Sigmoid。

在这里插入图片描述

HardSigmoid 可以看作是两个修正线性单元(Rectifed Linear Unit, ReLU) 的加总, ReLU 的图像有一个水平的线,走到某个地方有一个转折的点,变成一个斜坡, 其对应的公式为

c ∗ m a x ( 0 , b + w x 1 ) c ∗ max(0, b + wx1) cmax(0,b+wx1)

输出0或b+ w1为正的。

在这里插入图片描述

把两个 ReLU 叠起来就可以变成 Hard 的 Sigmoid,想要用 ReLU,就把 Sigmoid 的地方,换成

m a x ( 0 , b i + w i j x j ) max(0, b_i + w_{ij}x_{j}) max(0,bi+wijxj)

合成 i 个 Hard Sigmoid, 需要 i 个 Sigmoid,如果 ReLU 要做到一样的事情,则需要 2i 个 ReLU,因为 2 个 ReLU 合 起来才是一个 Hard Sigmoid。因此表示一个 Hard 的 Sigmoid 不是只有一种做法

📌激活函数(activation function)

在机器学习里面, Sigmoid 或 ReLU 称为激活函数(activation function)

在这里插入图片描述

Sigmoid 跟 ReLU 是最常见的激活函数,接下来的实
验都选择用了 ReLU,显然 ReLU 比较好,实验结果如图 1.20 所示。

连续使用 10 个 ReLU作为模型,跟用线性模型的结果是差不多的

但连续使用 100 个 ReLU 作为模型,结果就有显著差别了, 100 个 ReLU 在训练数据上的损失就可以从 320 降到 280,有 100 个 ReLU 就可以制造比较复杂的曲线,本来线性就是一直线,但 100 个 ReLU 就可以产生 100 个折线的函数,在测试数据上也好了一些。
接下来使用 1000 个 ReLU 作为模型,在训练数据上损失更低了一些,但是在没看过的数据上,损失没有变化

Sigmoid 跟 ReLU 是最常见的激活函数

继续改模型

在这里插入图片描述

如图 1.21 所示,从 x 变成 a,就是把 x 乘上 w 加 b,再通过 Sigmoid 函数

不一定要通过Sigmoid 函数,通过 ReLU 也可以得到 a,同样的事情再反复地多做几次。 所以可以把 x 做这一连串的运算产生 a,接下来把 a做这一连串的运算产生 a′。 反复地多做的次数又是另外一个超参数。
注意, w, b 和 w′, b′ 不是同一个参数,是增加了更多 的未知的参数。

📌深度学习

在这里插入图片描述

如图 1.24 所示, Sigmoid 或 ReLU 称为神经元(neuron),很多的神经元称为神经网络(neural network)
每一排称为一层,称为隐藏层(hiddenlayer),很多的隐藏层就“深”,这套技术称为深度学习

人们把神经网络越叠越多越叠越深
残差网络(Residual Network, ResNet) 有 152 层,错误率降到 3.57%。

在这里插入图片描述

如图 1.25 所示。在训练数据和测试数据上的结果是不一致的,这种情况称为过拟合(overftting)

🚩Task 3 机器学习框架&实践攻略

🎯机器学习框架

📌定义函数fθ(x)

定义一个函数 f θ ( x ) f_θ(x) fθ(x),其中θ表示模型中的所有未知参数。该函数接收输入特征x,并根据参数θ计算输出。

📌 定义损失函数

定义一个损失函数,用于评估给定参数组合θ的好坏程度。损失函数的选择依赖于具体的问题和模型类型。常见的损失函数包括均方误差、交叉熵等。

📌优化问题求解

的目标是寻找一个最优的参数组合θ∗,使得损失函数的值最小化。这可以通过求解一个优化问题来实现。常用的优化算法包括梯度下降、牛顿法等。

📌应用于测试数据

找到最优参数θ∗后,可以将其应用于测试数据。将测试集中的输入特征x带入函数 f θ ( x ) f_θ(x) fθ(x),得到预测结果。

📌提交到Kaggle进行评估

将预测结果提交到Kaggle等竞赛平台进行评估。该平台会根据预测结果与真实值之间的差异进行评分,以衡量模型的性能。

总结一下就是定义一个函数 f θ ( x ) f_θ(x) fθ(x),其中θ代表模型中的未知参数。然后,定义一个损失函数来评估参数组合的好坏程度。然后,通过优化问题求解找到最优参数θ∗使损失函数最小化。然后,将最优参数应用于测试数据,得到预测结果。最后,将预测结果提交到评估平台进行性能评估。

🎯实践方法论

📌为什么会出现模型偏差

模型偏差可能会影响模型训练。

假设模型过于简单,一个有未知参数的函数代 θ 1 θ_1 θ1 得到一个函数 f θ 1 ( x ) f_θ1(x) fθ1(x),同理可得到另一个函数 f θ 2 ( x ) f_θ2(x) fθ2(x),把所有的函数集合起来得到一个函数的集合。但是该函数的集合太小了,没有包含任何一个函数,可以让损失变低的函数不在模型可以描述的范围内

如何解决

  1. 用深度学习,增加更多的灵活性
  2. 所以如果模型的灵活性不够大,可以增加更多特征,可以设一个更大的模型,可以用深度学习来增加模型的灵活性,这是第一个可以的解法。
  3. 但是并不是训练的时候,损失大就代表一定是模型偏差,可能会遇到另外一个问题:优化做得不好

📌优化问题

一般只会用到梯度下降进行优化,这种优化的方法很多的问题。
待续

  • 18
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值