自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 基于transformer的机器翻译

NHEAD = 8transformer = Seq2SeqTransformer(NUM_ENCODER_LAYERS, NUM_DECODER_LAYERS, # 实例化tansform网络nn.init.xavier_uniform_(p) # 使用xavier方法初始化模型transformer = transformer.to(device) # copy数据至GPU。

2024-06-26 13:15:03 575

原创 在Sentence to Sentence中使用带注意力机制的Encoder和Decoder实现机器翻译

初始化解码器的隐藏状态# 解码器在最初时间步的输入是BOS# 我们将使用掩码变量mask来忽略掉标签为填充项PAD的损失, 初始全1dec_input = y # 使用强制教学# EOS后面全是PAD. 下面一行保证一旦遇到EOS接下来的循环中mask就一直是0使用强制学习,将真实的目标序列中的每个时间步的真实输出作为Decoder的输入,而不是将前一个时间步生成的输出作为当前时间步的输入。会使收敛更快,但在训练和推断时的不一致性会导致泛化能力不强。

2024-06-26 10:11:06 705

原创 使用前馈神经网络进行姓氏分类

在多类设置中,输出向量是类数量的大小。与之不同的是,cnn的数据集采用one-hot矩阵表示,而不是收缩的one-hot向量。卷积神经网络就是用不同的卷积核(kernel)去提取输入信息的特征,然后根据提取的特征进行分类(深层是卷积层提取特征,上层一般是传统分类器)MLP仅依靠对样本空间的扭曲来进行多类划分,没有对原输入信息进行特征提取,准确率比不上对输入信息进行深度特征提取,并按照特征匹配打分的CNN。MLP的能力来自于使用线性层之间的非线性激活函数来扭曲样本的表示空间,使得最后能用一个超平面进行划分。

2024-06-23 14:59:40 969

基于transformer的机器翻译

基于transformer的机器翻译

2024-06-26

基于transformer的机器翻译

基于transformer的机器翻译

2024-06-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除