- 博客(3)
- 收藏
- 关注
原创 基于transformer的机器翻译
NHEAD = 8transformer = Seq2SeqTransformer(NUM_ENCODER_LAYERS, NUM_DECODER_LAYERS, # 实例化tansform网络nn.init.xavier_uniform_(p) # 使用xavier方法初始化模型transformer = transformer.to(device) # copy数据至GPU。
2024-06-26 13:15:03
575
原创 在Sentence to Sentence中使用带注意力机制的Encoder和Decoder实现机器翻译
初始化解码器的隐藏状态# 解码器在最初时间步的输入是BOS# 我们将使用掩码变量mask来忽略掉标签为填充项PAD的损失, 初始全1dec_input = y # 使用强制教学# EOS后面全是PAD. 下面一行保证一旦遇到EOS接下来的循环中mask就一直是0使用强制学习,将真实的目标序列中的每个时间步的真实输出作为Decoder的输入,而不是将前一个时间步生成的输出作为当前时间步的输入。会使收敛更快,但在训练和推断时的不一致性会导致泛化能力不强。
2024-06-26 10:11:06
705
原创 使用前馈神经网络进行姓氏分类
在多类设置中,输出向量是类数量的大小。与之不同的是,cnn的数据集采用one-hot矩阵表示,而不是收缩的one-hot向量。卷积神经网络就是用不同的卷积核(kernel)去提取输入信息的特征,然后根据提取的特征进行分类(深层是卷积层提取特征,上层一般是传统分类器)MLP仅依靠对样本空间的扭曲来进行多类划分,没有对原输入信息进行特征提取,准确率比不上对输入信息进行深度特征提取,并按照特征匹配打分的CNN。MLP的能力来自于使用线性层之间的非线性激活函数来扭曲样本的表示空间,使得最后能用一个超平面进行划分。
2024-06-23 14:59:40
969
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人