【Transformer架构】框架概述（学习笔记）

最新推荐文章于 2024-08-16 11:05:09 发布

Bosenya12

最新推荐文章于 2024-08-16 11:05:09 发布

阅读量167

点赞数

文章标签： transformer 学习笔记

本文链接：https://blog.csdn.net/Glass_Gun/article/details/132847957

版权

预备知识

神经网络语音模型

NNLM（Neural Network Language Model）
来源于《A Neural Probabilistic Language Model》

独热编码（Onehot）

独热编码即 One-Hot 编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。
存在的问题：维度灾难和语义鸿沟

词向量（Word Embedding）

词向量 (Word Vector) 或称词嵌入 (Word Embedding) 做的事情其实就是将词表中的单词映射为实数向量以便计算机进行进一步的计算。从某种意义上来说，可以理解为用实数向量来表示每个单词的意思，拥有相似意义的单词被映射到二维平面上时通常是靠在一起的。来源: 知乎-以成

Word2Vec模型

在进行自然语言处理以及文本分析问题的时候，文本向量化是我们用来表示文本的一种重要方式，其中词袋（Bag of Words，BOW）和词向量（Word Embedding）是两种最常用的类型。
word2vec技术是一种为了利用神经网络从大量无标注的文本中提取有用信息而产生的向量。该模型的输入是one-hot编码，Hidden Layer是线性单元（没有激活函数），Output的使用的是softmax回归（输出输入词的邻近词的概率分布），维度和input相同，模型训练后输入层和隐藏层之间权重即为我们要获取的词向量。
word2vec本质上是一种简单的神经网络，它分为两种训练模型（CBOW和Skip-gram）：
1、CBOW模型是根据中心词W(t)周围的词来预测中心词。
2、Skip-gram模型是根据中心词W(t)来预测周围的词。

RNN（Recurrent Neural Network）

LSTM（Long Short-Term Memory）

LSTM 的 RNN 门控结构（LSTM 的 timestep）

ELMo（Embeddings from Language Models）

在这里插入图片描述

双向长短期记忆网络（Bi-LSTM）

LSTM的全称是Long Short-Term Memory，它是RNN（Recurrent Neural Network）的一种。LSTM由于其设计的特点，非常适合用于对时序数据的建模，如文本数据。BiLSTM是Bi-directional Long Short-Term Memory的缩写，是由前向LSTM与后向LSTM组合而成。两者在自然语言处理任务中都常被用来建模上下文信息。