llllllffffflife-CSDN博客

原创机器翻译博客

上下文利用：在自回归解码中，模型有机会利用之前生成的单词来指导当前的输出，这可以帮助模型更好地捕捉上下文信息，尤其是在语言模型训练中，模型可以更好地理解和预测序列中的单词。举个例子，假设标签序列为𝐴𝐴、𝐵𝐵、𝐶𝐶、𝐷𝐷、𝐸𝐸、𝐹𝐹，预测序列为𝐴𝐴、𝐵𝐵、𝐵𝐵、𝐶𝐶、𝐷𝐷，那么𝑝1=4/5,𝑝2=3/4,𝑝3=1/3,𝑝4=0𝑝1=4/5,𝑝2=3/4,𝑝3=1/3,𝑝4=0。2.重复编码器隐藏状态：如果解码器的隐藏单元个数比编码器多，可以复制编码器的最终隐藏状态多次，使其与解码器的隐藏单元个数匹配。

2024-06-27 18:26:51 1006

原创基于Transformer实现机器翻译（日译中）

这里我们服务器实在是计算能力有限，按照以下配置可以训练但是效果应该是不行的。如果想要看到训练的效果请使用你自己的带GPU的电脑运行这一套代码。当你使用自己的GPU的时候，NUM_ENCODER_LAYERS 和 NUM_DECODER_LAYERS 设置为3或者更高，NHEAD设置8，EMB_SIZE设置为512。# 定义源语言词汇表的大小# 定义目标语言词汇表的大小# 定义嵌入层的大小# 定义多头注意力的数量NHEAD = 8# 定义前馈神经网络隐藏层的大小# 定义每个批次的样本数量。

2024-06-26 22:13:48 1033

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 机器翻译博客

原创 基于Transformer实现机器翻译（日译中）

空空如也

空空如也

原创机器翻译博客

原创基于Transformer实现机器翻译（日译中）