QQ O(∩_∩)O哈哈~-CSDN博客

原创基于Transformer & PyTorch 的日语—中文机器翻译模型

该模型由Google的研究团队于2017年在论文《Attention is All You Need》中首次提出，自那以后，它成为了许多NLP任务的基础，包括机器翻译、文本生成、问答系统等。随着模型规模的不断扩大和算法的优化，如BERT、GPT系列和最近的ChatGPT，Transformer模型持续推动着AI技术的边界，为各种应用场景带来了前所未有的性能提升。首先，创建用于翻译新句子的函数，这包括获取日语句子、进行分词、转换为张量、推断以及最后将结果解码回句子的过程，但这次是转换成英文。

2024-06-30 01:23:39 296 1

原创基于注意力的机器翻译

门控循环单元在最终时间步的多层隐藏状态的形状为(隐藏层个数, 批量大小, 隐藏单元个数)。在编码器中，我们将输入语言的词索引通过词嵌入层得到词的表征，然后输入到一个多层门控循环单元中。正如我们在6.5节（循环神经网络的简洁实现）中提到的，PyTorch的nn.GRU实例在前向计算后也会分别返回输出和最终时间步的多层隐藏状态。其中的输出指的是最后一层的隐藏层在各个时间步的隐藏状态，并不涉及输出层计算。在下面的例子中，编码器的时间步数为10，批量大小为4，编码器和解码器的隐藏单元个数均为8。

2024-06-30 01:13:20 436

原创使用前馈神经网络进行姓氏分类

虽然这种方法在实践中效果很好，但在给定卷积的超参数和输入张量的情况下，还有另一种计算张量输出大小的方法，即使用从卷积运算本身推导出的数学公式。使用较小的核大小，可以捕获较小的频繁模式，而较大的核大小会导致较大的模式，这可能更有意义，但是发生的频率更低。类似地，在三维卷积中，模式是沿着数据中的三维捕获的。例如，在视频数据中，信息是三维的，二维表示图像的帧，时间维表示帧的序列。排名前三的课程占数据的。学习具有特定属性的中间表示，如分类任务是线性可分的，这是使用神经网络的最深刻后果之一，也是其建模能力的精髓。

2024-06-30 00:58:47 715 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 基于Transformer & PyTorch 的日语—中文机器翻译模型

原创 基于注意力的机器翻译

原创 使用前馈神经网络进行姓氏分类

空空如也

空空如也

原创基于Transformer & PyTorch 的日语—中文机器翻译模型

原创基于注意力的机器翻译

原创使用前馈神经网络进行姓氏分类