目录
本章节概要
- transformer使用编码器和解码器解决上下文理解的问题
- trasformer的流程是输入数据-嵌入值-位置编码-编码器(多头注意力层-前馈网络层)-特征值-解码器(带掩码的多头注意力层-多头注意力层-前馈网络层)-线性层-softmax层-输出预测值概率
介绍
问题:循环神经网络RNN和长短期记忆网络LSTM无法记录长期依赖。RNN是将句子中的词逐个送入神经网络。
解法:Transformer就是为了解决这个问题,将句子中的所有词并行送入神经网络,它整合了编码器和解码器用于自然语言处理任务,替代了RNN和LSTM,衍生出Bert、GPT-3等知名架构。