NLP 学习笔记之 Seq2seq

努力不脱发选手

已于 2022-04-17 08:33:02 修改

阅读量1.9k

点赞数 1

文章标签：自然语言处理学习深度学习

于 2022-03-09 14:15:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41147129/article/details/123374644

版权

本文介绍了自然语言处理中的Seq2Seq模型，重点讲解了Recurrent Neural Networks（RNN）、Encoder-Decoder结构以及GRU单元。文章还探讨了Seq2Seq在处理序列到序列任务中的应用，包括Softmax函数的作用以及训练目标序列的选择策略，如greedy搜索和Beam Search。

摘要由CSDN通过智能技术生成

基础知识储备：
首先知道计算机把语言当作sequence
有一些标识符
BOS：begining of sequence，代表序列开始。
EOS：End of sequence，代表序列结束。
UNK: 低频词或未在词表中的词
PAD: 补全字符

Epoch（时期）：
当一个完整的数据集通过了神经网络一次并且返回了一次，这个过程称为一次>epoch。（也就是说，所有训练样本在神经网络中都进行了一次正向传播和一次反向传播）
然而，当一个Epoch的样本（也就是所有的训练样本）数量可能太过庞大（对于计算机而言），就需要把它分成多个小块，也就是就是分成多个Batch 来进行训练。

Batch（批 / 一批样本）：
将整个训练样本分成若干个Batch。

Batch_Size（批大小）：
每批样本的大小。样本数量/ 批次数= batch size
batchSize表示批次大小，如bathSize=5，代表模型处理完5个样本后，进行一次前向传播和反向传播;

Iteration（一次迭代）：
训练一个Batch就是一次Iteration

一 Recurrent Neural Networks

一个RNN包括隐藏状态h、一个可选的输出y，可变长度输入序列x， X = {x1, x2, … xT}。

最低0.47元/天解锁文章

努力不脱发选手

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
NLP 学习笔记之 Seq2seq

一什么是word embedding词嵌入（Word Embedding）或者分布式向量（Distributional Vectors）是将自然语言表示的单词转换为计算机能够理解的向量或矩阵形式的技术。由于要考虑多种因素比如词的语义（同义词近义词）、语料中词之间的关系（上下文）和向量的维度（处理复杂度）等等，我们希望近义词或者表示同类事物的单词之间的距离可以理想地近，只有拿到很理想的单词表示形式，我们才更容易地去做翻译、问答、信息抽取等进一步的工作。在Word Embedding之前，常用的方法有on
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。