- 博客(2)
- 收藏
- 关注
原创 机器翻译博客
上下文利用:在自回归解码中,模型有机会利用之前生成的单词来指导当前的输出,这可以帮助模型更好地捕捉上下文信息,尤其是在语言模型训练中,模型可以更好地理解和预测序列中的单词。举个例子,假设标签序列为𝐴𝐴、𝐵𝐵、𝐶𝐶、𝐷𝐷、𝐸𝐸、𝐹𝐹,预测序列为𝐴𝐴、𝐵𝐵、𝐵𝐵、𝐶𝐶、𝐷𝐷,那么𝑝1=4/5,𝑝2=3/4,𝑝3=1/3,𝑝4=0𝑝1=4/5,𝑝2=3/4,𝑝3=1/3,𝑝4=0。2.重复编码器隐藏状态: 如果解码器的隐藏单元个数比编码器多,可以复制编码器的最终隐藏状态多次,使其与解码器的隐藏单元个数匹配。
2024-06-27 18:26:51 1006
原创 基于Transformer实现机器翻译(日译中)
这里我们服务器实在是计算能力有限,按照以下配置可以训练但是效果应该是不行的。如果想要看到训练的效果请使用你自己的带GPU的电脑运行这一套代码。当你使用自己的GPU的时候,NUM_ENCODER_LAYERS 和 NUM_DECODER_LAYERS 设置为3或者更高,NHEAD设置8,EMB_SIZE设置为512。# 定义源语言词汇表的大小# 定义目标语言词汇表的大小# 定义嵌入层的大小# 定义多头注意力的数量NHEAD = 8# 定义前馈神经网络隐藏层的大小# 定义每个批次的样本数量。
2024-06-26 22:13:48 1033
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人