动手学深度学习pytorch（一）-预备知识

Rendy_

已于 2024-07-26 20:07:28 修改

阅读量34

点赞数

分类专栏：动手学深度学习pytorch 文章标签：深度学习 pytorch 人工智能

于 2024-05-31 17:17:41 首次发布

原文链接：https://zh.d2l.ai/

版权

动手学深度学习pytorch 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章目录

1 引言

1 引言

1.1 日常生活中的机器学习

在这里插入图片描述

1.2 关键组件

无论什么类型的机器学习问题，都会遇到这些组件：

可以用来学习的数据（data）；
如何转换数据的模型（model）；
一个目标函数（objective function），用来量化模型的有效性；
调整模型参数以优化目标函数的算法（algorithm）。

1.2.1 数据

样本有时也叫做数据点（data point）或者数据实例（data instance），通常每个样本由一组称为特征（features，或协变量（covariates））的属性组成。
在上面的监督学习问题中，要预测的是一个特殊的属性，它被称为标签（label，或目标（target））。
数据的维数（dimensionality）。
有一句古语很好地反映了这个现象：“输入的是垃圾，输出的也是垃圾。”（“Garbage in, garbage out.”）
一种常见的问题来自不均衡的数据集，皮肤癌识别模型，从未“见过”黑色皮肤的人群，就会束手无策。

1.2.3 目标函数

我们通常定义一个目标函数（objective function），并希望优化它到最低点。因为越低越好，所以这些函数有时被称为损失函数（loss function，或cost function）。
当任务在试图预测数值时，最常见的损失函数是平方误差（squared error），即预测值与实际值之差的平方。
当试图解决分类问题时，最常见的目标函数是最小化错误率，即预测与实际情况不符的样本比例。
有些目标函数（如平方误差）很容易被优化，有些目标（如错误率）由于不可微性或其他复杂性难以直接优化。在这些情况下，通常会优化替代目标。

1.2.4 优化算法

大多流行的优化算法通常基于一种基本方法–梯度下降（gradient descent）。

1.3 各种机器学习问题

1.3.1 监督学习

在这里插入图片描述

回归

回归（regression）是最简单的监督学习任务之一。

分类

分类（classification）
预测样本属于哪个类别（category，正式称为类（class））。
最简单的分类问题是只有两类，这被称之为二项分类（binomial classification）。
当有两个以上的类别时，我们把这个问题称为多项分类（multiclass classification）问题。
分类问题的常见损失函数被称为交叉熵（cross‐entropy）
人们宁愿错误地分入一个相关的类别，也不愿错误地分入一个遥远的类别，这通常被称为层次分类(hierarchical classification)。

标注

学习预测不相互排斥的类别的问题称为多标签分类（multi‐label classification）。

搜索

序列问题

如果输入是连续的，模型可能就需要拥有“记忆”功能。
标记和解析。
自动语音识别。
文本到语音。
机器翻译。

1.3.2 无监督学习

聚类（clustering）问题
主成分分析（principal component analysis）问题
比如，一个球的运动轨迹可以用球的速度、直径和质量来描述。
因果关系（causality）和概率图模型（probabilistic graphical models）问题：
生成对抗性网络（generative adversarial networks）：

1.3.3 与环境互动

1.3.4 强化学习

如果你对使用机器学习开发与环境交互并采取行动感兴趣，那么最终可能会专注于强化学（reinforcement learning）。
在这里插入图片描述
在强化学习问题中，智能体（agent）在一系列的时间步骤上与环境交互。
在每个特定时间点，智能体从环境接收一些观察（observation），并且必须选择一个动作（action），然后通过某种机制（有时称为执行器）将其传输回环境，最后智能体从环境中获得奖励（reward）。
请注意，强化学习的目标是产生一个好的策略（policy）。
强化学习者必须处理学分分配（credit assignment）问题：决定哪些行为是值得奖励的，哪些行为是需要惩罚的。
暂不理解：强化学习可能还必须处理部分可观测性问题。也就是说，当前的观察结果可能无法阐述有关当前状态的所有信息。比方说，一个清洁机器人发现自己被困在一个许多相同的壁橱的房子里。推断机器人的精确位置（从而推断其状态），需要在进入壁橱之前考虑它之前的观察结果。
强化学习智能体必须不断地做出选择：是应该利用当前最好的策略，还是探索新的策略空间（放弃一些短期回报来换取知识）。
当环境可被完全观察到时，强化学习问题被称为马尔可夫决策过程（markov decision process）。当状态不依赖于之前的操作时，我们称该问题为上下文赌博机（contextual bandit problem）。当没有状态，只有一组最初未知回报的可用动作时，这个问题就是经典的多臂赌博机（multi‐armed bandit problem）。

1.5 深度学习的发展

新的容量控制方法，如dropout，有助于减轻过拟合的危险。这是通过在整个神经网络中应用噪声注入来实现的，出于训练目的，用随机变量来代替权重。
注意力机制解决了困扰统计学一个多世纪的问题：如何在不增加可学习参数的情况下增加系统的记忆和复杂性。
生成对抗网络。生成式对抗性网络的关键创新是用具有可微参数的任意算法代替采样器。然后对这些数据进行调整，使得鉴别器（实际上是一个双样本测试）不能区分假数据和真实数据。通过使用任意算法生成数据的能力，它为各种技术打开了密度估计的大门。