【Datawhale AI 夏令营第五期学习笔记】Datawhale X 李宏毅苹果书 深度学习入门 AI夏令营 Task1 #Datawhale #AI夏令营

第一章 机器学习基础

0 机器学习与深度学习概念

机器学习(Machine Learning,ML) 指的是赋予机器学习能力的技术。具体来说,机器学习的核心任务是让机器找到某种函数。这一函数的求解过程,通常难以通过人工编写,但可以通过机器学习的方法进行自动化获取。以下是几个典型的应用场景:

  • 语音识别:机器通过分析声音信号生成对应的文本。该过程的核心是找到一个将声音信号映射为文本的复杂函数。
  • 图像识别:该任务要求找到一个将图像输入映射为图像内容输出的函数。
  • AlphaGo:将围棋棋盘上的黑白子位置作为输入,机器根据函数输出下一步应该落子的具体位置。

深度学习(Deep Learning,DL) 是机器学习的一个分支,专注于通过多层神经网络来解决复杂问题。它的核心思想仍然是函数的求解,但通过深度网络的特性,能够更有效地处理大规模数据和复杂任务。

机器学习的任务类别

回归(Regression)

回归任务 的目标是找到一个函数,使其输出为数值型结果(标量)。例如,预测未来某一时刻的 PM2.5 值,输入可以包括当前的 PM2.5 数据、平均温度、臭氧浓度等相关指数,输出则是预测的 PM2.5 数值。

分类(Classification)

分类任务 要求机器在给定选项(类别)中选择一个最合适的输出。例如:

  • 垃圾邮件检测:判断一封邮件是否为垃圾邮件,该任务的输出是二元分类结果(垃圾邮件或非垃圾邮件)。
  • AlphaGo 的围棋决策:棋盘上有 19×19 个位置,机器需要选择一个位置落子。此任务的输出是从 19×19 个位置中选择一个最佳落子点。

结构化学习(Structured Learning)

结构化学习 任务超越了简单的分类或回归,目标是生成具有复杂结构的输出。例如:

  • 图像生成:机器根据输入生成一张图像。
  • 文本生成:让机器根据输入写一篇文章。

此类任务涉及生成具有内部结构的复杂输出,是机器学习中更高级的应用。

结论

机器学习的核心在于函数的求解,不同任务(如回归、分类和结构化学习)对应于不同的函数输出形式。深度学习则利用多层神经网络进一步优化这一过程,解决更为复杂的实际问题。

1. 1 案例学习

假设一个人希望通过视频平台赚取收入,他会关注频道的流量情况,以了解获利情况。可以利用视频后台的各种数据(如每天的点赞人数、订阅人数、观看次数等)来预测明天的观看次数。为此,需要找到一个函数,该函数以这些后台信息作为输入,并输出明天该频道的总观看次数。

1.1.1. 第一步:定义模型

机器学习的第一步是定义一个带有未知参数的函数 ( f ),用于预测未来的观看次数。例如,假设将函数写成:

y = b + w × x 1 y = b + w \times x_1 y=b+w×x1

其中:

  • ( y ) 是我们想要预测的内容,即今天的总观看次数。
  • ( x_1 ) 是前一天的总观看次数。
  • ( b ) 和 ( w ) 是未知的参数,需要通过数据来确定。

在这里:

  • ( w ) 被称为权重(weight)。
  • ( b ) 被称为偏置(bias)。

这个带有未知参数的函数被称为模型(model)。( x_1 ) 是已知的特征(feature),而 ( w ) 和 ( b ) 是需要通过数据找到的未知参数。

1.1.2 第二步:定义损失函数

损失函数是一个用于衡量模型性能的函数,通常表示为 ( L(b, w) ),其中输入为模型参数 ( b ) 和 ( w ),输出则表示模型的误差。

例如,假设 ( b = 500 ),( w = 1 ),则预测函数变为:

y ^ = 500 + x 1 \hat{y} = 500 + x_1 y^=500+x1

然后,利用历史数据(如从 2017 年 1 月 1 日到 2020 年 12 月 31 日的观看次数)来计算损失。

举例:

  • 2017 年 1 月 1 日的观看次数 ( x_1 = 4800 ),实际结果 ( y = 4900 )。
  • 预测结果为 ( y = 5300 ),误差 e 1 = ∣ y ^ − y ∣ = 400 e_1 = |\hat{y} - y| = 400 e1=y^y=400

通过计算每一天的预测误差 ( e ),可以得到一个损失函数 ( L ):

L = 1 N ∑ n e n L = \frac{1}{N} \sum_{n} e_n L=N1nen

其中,( N ) 是训练数据的总数。常见的误差计算方法有:

  • 平均绝对误差(Mean Absolute Error, MAE): e = ∣ y ^ − y ∣ e = |\hat{y} - y| e=y^y
  • 均方误差(Mean Squared Error, MSE): e = ( y ^ − y ) 2 e = (\hat{y} - y)^2 e=(y^y)2

可以通过调整 ( w ) 和 ( b ) 的值,计算它们对应的损失,从而绘制出等高线图(误差表面).

1.1.3 第三步:优化模型参数

接下来,需要解一个最优化问题,即找到最优的 ( w ) 和 ( b ),使得损失函数 ( L ) 最小。通常使用梯度下降法(gradient descent)进行优化。

梯度下降的基本思想是:

  1. 随机选择一个初始点 ( w_0 )。
  2. 计算损失函数对 ( w ) 的导数 ∂ L ∂ w ∣ w = w 0 \frac{\partial L}{\partial w} \Big|_{w=w_0} wL w=w0
  3. 根据导数的符号,更新 ( w ) 的值: w 1 = w 0 − η ∂ L ∂ w w_1 = w_0 - \eta \frac{\partial L}{\partial w} w1=w0ηwL,其中 η \eta η 是学习率(learning rate)。

该过程不断重复,直到达到停止条件:

  • 参数更新次数达到预设上限。
  • 导数值接近于零,表示达到了局部最小值或全局最小值。

注意,梯度下降可能会陷入局部最小值,而非全局最小值。不过,在实际应用中,局部最小值的问题通常不是主要挑战。

1.1.4 多参数情况

在多参数情况下,例如有两个参数 ( w ) 和 ( b ),梯度下降的过程与单参数类似。我们需要计算每个参数对损失函数的偏导数,然后分别更新参数的值:

w 1 ← w 0 − η ∂ L ∂ w ∣ w = w 0 , b = b 0 w_1 \leftarrow w_0 - \eta \frac{\partial L}{\partial w} \Big|_{w=w_0, b=b_0} w1w0ηwL w=w0,b=b0

b 1 ← b 0 − η ∂ L ∂ b ∣ w = w 0 , b = b 0 b_1 \leftarrow b_0 - \eta \frac{\partial L}{\partial b} \Big|_{w=w_0, b=b_0} b1b0ηbL w=w0,b=b0

通过反复迭代,最终我们可以找到一组使损失最小的参数 ( w* ) 和 ( b* )。

  • 13
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值