- 博客(3)
- 收藏
- 关注
原创 基于Transformer实现机器翻译(日译中)
你也可以在这里看到这篇论文。在这里,我将BATCH_SIZE设置为 16 以防止“cuda 内存不足”,但这取决于各种因素,例如您的机器内存容量、数据大小等,因此请根据需要随意更改批处理大小(注意:PyTorch 的教程使用 Multi30k 德语-英语数据集将批处理大小设置为 128。我们可以使用JParaCrawl提供的分词器,该分词器是使用SentencePiece创建的日语和英语,您可以访问JParaCrawl网站下载它们,或单击此处。最后,在准备了必要的类和函数之后,我们准备训练我们的模型。
2024-06-26 20:58:34
505
原创 基于注意力的机器翻译
举个例子,假设标签序列为𝐴𝐴、𝐵𝐵、𝐶𝐶、𝐷𝐷、𝐸𝐸、𝐹𝐹,预测序列为𝐴𝐴、𝐵𝐵、𝐵𝐵、𝐶𝐶、𝐷𝐷,那么𝑝1=4/5,𝑝2=3/4,𝑝3=1/3,𝑝4=0𝑝1=4/5,𝑝2=3/4,𝑝3=1/3,𝑝4=0。1、线性映射(Linear Projection) 如果编码器和解码器的隐藏层维度不同,可以使用一个线性变换(通常是全连接层,也称作“projection layer”)来调整编码器最终状态的维度,使其与解码器的隐藏层维度匹配。其中的输出指的是最后一层的隐藏层在各个时间步的隐藏状态,并不涉及输出层计算。
2024-06-26 20:38:54
830
原创 基于前馈神经网络进行姓氏分类
感知器是现存最简单的神经网络。感知器的一个历史性的缺点是它不能学习数据中存在的一些非常重要的模式。例如,查看图1-1中绘制的数据点。这相当于非此即彼(XOR)的情况,在这种情况下,决策边界不能是一条直线(也称为线性可分)。在这个例子中,感知器失败了。图1-1 XOR数据集中的两个类绘制为圆形和星形。请注意,没有任何一行可以分隔这两个类。在这一实验中,我们将探索传统上称为前馈网络的神经网络模型,以及两种前馈神经网络:多层感知器和卷积神经网络。
2024-06-26 18:09:13
989
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人