到底取什么名字好呢？-CSDN博客

原创基于Transform和pytorch框架的中日机器翻译

之前我们使用的是RNN（或者是其的单向或者双向变种LSTM/GRU等）来作为编解码器。RNN模块每次只能够吃进一个输入token和前一次的隐藏状态，然后得到输出。它的时序结构使得这个模型能够得到长距离的依赖关系，但是这也使得它不能够并行计算，模型效率十分低。有时我们还使用了CNN，虽然CNN能够并行计算，但是处理变长序列时不够灵活。为了克服以上问题，提出了Transform框架，该架构采用了自注意力机制，使得模型能够同时关注序列中的所有位置，从而捕捉长距离依赖关系。

2024-06-24 16:25:00 1666 1

原创 NLP-基于机器翻译介绍编码解码器和注意力机制

是指将一段文本从一种语言自动翻译到另一种语言本次机器翻译大致流程为：1.数据预处理：构建字典，序列化，张量化等函数。2.构建编码器：构建一个编码器模型，用于将输入的源语言句子编码成一个语义向量或上下文表示。3.构建解码器：构建一个解码器模型，用于从编码的语义向量中生成目标语言的句子。可以进入注意力机制。4.定义损失函数及优化函数：训练过程中通常使用一个损失函数（如交叉熵损失）来衡量预测结果与实际目标的差距，并通过优化算法优化模型参数。5.训练：使用准备好的训练数据对编码器-解码器模型进行训练。

2024-06-23 23:20:04 2057

原创神经网络基础组件

简单总结构造思路基于梯度监督学习的核心概念很简单：定义模型，计算输出，使用损失函数计算梯度，应用优化算法用梯度更新模型参数。2015年，Yelp 举办了一场竞赛，要求参与者根据点评预测一家餐厅的评级。同年，Zhang, Zhao，和Lecun(2015)将 1 星和 2 星评级转换为“消极”情绪类，将3星和4星评级转换为“积极”情绪类，从而简化了数据集。该数据集分为 56 万个训练样本和3.8万个测试样本。在这个数据集部分的其余部分中，我们将描述最小化清理数据并导出最终数据集的过程。

2024-06-09 16:35:08 1857 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 基于Transform和pytorch框架的中日机器翻译

原创 NLP-基于机器翻译介绍编码解码器和注意力机制

原创 神经网络基础组件

空空如也

空空如也

原创基于Transform和pytorch框架的中日机器翻译

原创神经网络基础组件