李沐动手学深度学习
文章平均质量分 89
醒了就刷牙
这个作者很懒,什么都没留下…
展开
-
55 循环神经网络 RNN 的实现_简洁实现_by《李沐:动手学深度学习v2》pytorch版
高级API提供了循环神经网络的实现。我们构造一个具有256个隐藏单元的单隐藏层的循环神经网络层rnn_layer。事实上,我们还没有讨论多层循环神经网络的意义(这将在之后博客中中介绍)。现在仅需要将多层理解为一层循环神经网络的输出被用作下一层循环神经网络的输入就足够了。我们(使用张量来初始化隐状态),它的形状是(隐藏层数,批量大小,隐藏单元数)。state = torch.zeros((1, batch_size, num_hiddens))#这里的1先记住,以后会知道为什么框架是这样的。原创 2024-09-26 19:28:50 · 559 阅读 · 0 评论 -
55 循环神经网络RNN的实现_by《李沐:动手学深度学习v2》pytorch版
循环神经网络模型通过。原创 2024-09-23 19:47:24 · 1543 阅读 · 0 评论 -
54 循环神经网络RNN_by《李沐:动手学深度学习v2》pytorch版
语言模型说白了,是个分类模型,我的输出是对下一个词的预测,假设一共有m个词,也就是m个类的分类问题,对于分类问题,当然可以使用交叉熵来做。个时间步上的梯度,将会在反向传播过程中产生长度为。通过这样做,我们知道梯度范数永远不会超过。输入“你”,更新隐变量,输出“好”。较大时,它可能导致数值不稳定。一个流行的替代方案是通过将梯度。的序列,我们在迭代中计算这。,并且更新后的梯度完全与。投影回给定半径(例如。原创 2024-09-23 16:29:07 · 690 阅读 · 0 评论 -
53 语言模型(和之后用来训练语言模型的数据集)_by《李沐:动手学深度学习v2》pytorch版
语言模型估计文本序列的联合概率使用统计方法时常采用n元语法。原创 2024-09-22 11:20:30 · 1191 阅读 · 0 评论 -
52 文本预处理_by《李沐:动手学深度学习v2》pytorch版
例如:第一章 Python 机器学习入门之pandas的使用。原创 2024-09-21 16:13:33 · 1203 阅读 · 0 评论 -
51 序列模型_by《李沐:动手学深度学习v2》pytorch版
时序模型中,当前数据跟之前观察到的数据相关自回归模型使用自身过去数据来预测未来马尔科夫模型假设当前只跟最近少数数据相关,从而简化模型潜变量模型使用潜变量来概括历史信息。原创 2024-09-21 15:36:40 · 1226 阅读 · 0 评论 -
编码器-解码器架构_by《李沐:动手学深度学习v2》pytorch版
正如我们在上一节中所讨论的, 机器翻译是序列转换模型的一个核心问题, 其输入和输出都是长度可变的序列。 为了处理这种类型的输入和输出, 我们可以设计一个包含两个主要组件的架构: 第一个组件是一个编码器(encoder): 它接受一个长度可变的序列作为输入, 并将其转换为具有固定形状的编码状态。 第二个组件是解码器(decoder): 它将固定形状的编码状态映射到长度可变的序列。 这被称为编码器-解码器(encoder-decoder)架构, 如下图所示。我们以英语到法语的机器翻译为例: 给定一个英文的输原创 2024-09-20 17:31:24 · 1238 阅读 · 0 评论 -
机器翻译与数据集_by《李沐:动手学深度学习v2》pytorch版
语言模型是自然语言处理的关键, 而机器翻译是语言模型最成功的基准测试。因为机器翻译正是将输入序列转换成输出序列的序列转换模型(sequence transduction)的核心问题。序列转换模型在各类现代人工智能应用中发挥着至关重要的作用, 为此,本节将介绍机器翻译问题及其后文需要使用的数据集。机器翻译(machine translation)指的是将序列从一种语言自动翻译成另一种语言。原创 2024-09-20 16:26:49 · 1111 阅读 · 0 评论