Edgillusion-CSDN博客

原创基于Transformer实现的机器翻译

总的来说，trainen和trainja中的句子数量都是5973071，然而，出于学习目的，通常建议在一次使用所有数据之前，对数据进行采样，并确保一切正常，以节省时间。在这里，我将BATCH_SIZE设置为16，以防止“cuda内存不足”，但这取决于各种因素，如机器内存容量、数据大小等，所以可以根据您的需要随意更改批量大小（注意：PyTorch的教程使用Multi30k德语-英语数据集将批量大小设置为128。最后，在准备好必要的类和函数之后，我们就可以训练我们的模型了。文本标记通过使用标记嵌入来表示。

2024-06-25 09:14:03 1321

原创自然语言——机器翻译

门控循环单元在最终时间步的多层隐藏状态的形状为(隐藏层个数, 批量大小, 隐藏单元个数)。其中隐藏层的输入是解码器的隐藏状态与编码器在所有时间步上隐藏状态的一一连结，且使用tanh函数作为激活函数。在下面的例子中，编码器的时间步数为10，批量大小为4，编码器和解码器的隐藏单元个数均为8。其中的输出指的是最后一层的隐藏层在各个时间步的隐藏状态，并不涉及输出层计算。具体来说，设词数为𝑛𝑛的子序列的精度为𝑝𝑛𝑝𝑛。它是预测序列与标签序列匹配词数为𝑛𝑛的子序列的数量与预测序列中词数为𝑛𝑛的子序列的数量之比。

2024-06-25 08:40:53 1859

原创自然语言处理前馈网络

在实验3中，我们通过观察感知器来介绍神经网络的基础，感知器是现存最简单的神经网络。感知器的一个历史性的缺点是它不能学习数据中存在的一些非常重要的模式。例如，查看图4-1中绘制的数据点。这相当于非此即彼(XOR)的情况，在这种情况下，决策边界不能是一条直线(也称为线性可分)。在这个例子中，感知器失败了。在这一实验中，我们将探索传统上称为前馈网络的神经网络模型，以及两种前馈神经网络:多层感知器和卷积神经网络。

2024-06-22 10:06:49 1409 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 基于Transformer实现的机器翻译

原创 自然语言——机器翻译

原创 自然语言处理前馈网络

空空如也

空空如也

原创基于Transformer实现的机器翻译

原创自然语言——机器翻译

原创自然语言处理前馈网络