- 博客(3)
- 收藏
- 关注
原创 Japanese-Chinese Machine Translation Model with Transformer & PyTorch
Transformer模型是一种用于处理序列数据的深度学习模型,特别是在自然语言处理领域中取得了显著的成就。它由Vaswani等人在2017年提出,主要解决了传统循环神经网络(RNNs)和长短期记忆网络(LSTMs)在处理长距离依赖问题上的局限性.
2024-06-27 10:10:18 731
原创 机器翻译——编码器—解码器和注意力机制的应用
其中隐藏层的输入是解码器的隐藏状态与编码器在所有时间步上隐藏状态的一一连结,且使用tanh函数作为激活函数。它是预测序列与标签序列匹配词数为𝑛的子序列的数量与预测序列中词数为𝑛的子序列的数量之比。正如我们在6.5节(循环神经网络的简洁实现)中提到的,PyTorch的nn.GRU实例在前向计算后也会分别返回输出和最终时间步的多层隐藏状态。其中的输出指的是最后一层的隐藏层在各个时间步的隐藏状态,并不涉及输出层计算。在下面的例子中,编码器的时间步数为10,批量大小为4,编码器和解码器的隐藏单元个数均为8。
2024-06-27 09:40:23 588
原创 自然语言处理前馈网络
一、实验介绍1. 实验内容在这一实验中,我们将探索传统上称为前馈网络的神经网络模型,以及两种前馈神经网络:多层感知器和卷积神经网络。多层感知器在结构上扩展了我们在实验3中研究的简单感知器,将多个感知器分组在一个单层,并将多个层叠加在一起。我们稍后将介绍多层感知器,并在“示例:带有多层感知器的姓氏分类”中展示它们在多层分类中的应用。本实验研究的第二种前馈神经网络,卷积神经网络,在处理数字信号时深受窗口滤波器的启发。通过这种窗口特性,卷积神经网络能够在输入中学习局部化模式,这不仅使其成为计算机视觉的
2024-06-16 22:41:48 792
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人