- 博客(3)
- 收藏
- 关注
原创 jp_cn_translation
Define model parameters and instantiate model. 这里我们服务器实在是计算能力有限,按照以下配置可以训练但是效果应该是不行的。如果想要看到训练的效果请使用你自己的带GPU的电脑运行这一套代码。当你使用自己的GPU的时候,NUM_ENCODER_LAYERS 和 NUM_DECODER_LAYERS 设置为3或者更高,NHEAD设置8,EMB_SIZE设置为512。
2024-06-26 23:25:41 794
原创 机器翻译-注意力机制
编码器的作用是把一个不定长的输入序列变换成一个定长的背景变量𝑐𝑐,并在该背景变量中编码输入序列信息。常用的编码器是循环神经网络。让我们考虑批量大小为1的时序数据样本。假设输入序列是𝑥1,…,𝑥𝑇𝑥1,…,𝑥𝑇,例如𝑥𝑖𝑥𝑖是输入句子中的第𝑖𝑖个词。在时间步𝑡𝑡,循环神经网络将输入𝑥𝑡𝑥𝑡的特征向量𝑥𝑡𝑥𝑡和上个时间步的隐藏状态ℎ𝑡−1ℎ𝑡−1变换为当前时间步的隐藏状态ℎ𝑡ℎ𝑡。我们可以用函数𝑓𝑓表达循环神经网络隐藏层的变换:接下来,编码器通过自定义函数𝑞𝑞将各个时间步的隐藏状态变换为背景变量。
2024-06-26 20:40:11 693
原创 自然语言处理前馈网络
在MLP中,许多感知器被分组,以便单个层的输出是一个新的向量,而不是单个输出值。在不深入研究实现细节的情况下,在左边的面板中,从填充的形状可以看出,感知器在学习一个可以将星星和圆分开的决策边界方面有困难。请注意,在print语句的输出中,每个层中的单元数很好地排列在一起,以便为维度3的输入生成维度4的输出。我将在接下来的实验中通过“示例:带有多层感知器的姓氏分类”,掌握多层感知器在多层分类中的应用,希望大家可以通过本篇文章大致了解并且,掌握每种类型的神经网络层对它所计算的数据张量的大小和形状的影响。
2024-06-26 19:44:48 755
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人