- 博客(3)
- 收藏
- 关注
原创 基于Transformer实现机器翻译(日译中)
loss = loss_fn(logits.reshape(-1, logits.shape[-1]), tgt_out.reshape(-1)) # 计算损失。loss = loss_fn(logits.reshape(-1, logits.shape[-1]), tgt_out.reshape(-1)) # 计算损失。当你使用自己的GPU的时候,NUM_ENCODER_LAYERS 和 NUM_DECODER_LAYERS 设置为3或者更高,NHEAD设置8,EMB_SIZE设置为512。
2024-06-29 10:11:43 1950
原创 机器翻译随堂实验
我们将连结后的结果与上一时间步的隐藏状态通过门控循环单元计算出当前时间步的输出与隐藏状态。设门控循环单元的隐藏层个数为2,隐藏单元个数为16。门控循环单元在最终时间步的多层隐藏状态的形状为(隐藏层个数, 批量大小, 隐藏单元个数)。其中隐藏层的输入是解码器的隐藏状态与编码器在所有时间步上隐藏状态的一一连结,且使用tanh函数作为激活函数。在下面的例子中,编码器的时间步数为10,批量大小为4,编码器和解码器的隐藏单元个数均为8。其中的输出指的是最后一层的隐藏层在各个时间步的隐藏状态,并不涉及输出层计算。
2024-06-29 08:56:29 1422
原创 自然语言处理前馈网络
一、实验介绍1. 实验内容在实验3中,我们通过观察感知器来介绍神经网络的基础,感知器是现存最简单的神经网络。感知器的一个历史性的缺点是它不能学习数据中存在的一些非常重要的模式。例如,查看图4-1中绘制的数据点。这相当于非此即彼(XOR)的情况,在这种情况下,决策边界不能是一条直线(也称为线性可分)。在这个例子中,感知器失败了。图4-1 XOR数据集中的两个类绘制为圆形和星形。请注意,没有任何一行可以分隔这两个类。在这一实验中,我们将探索
2024-06-29 08:17:00 1549 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人