transformer(”变形金刚“)

本文深入探讨Transformer模型,介绍其背景、模型架构,包括Positional Encoding、Multi-Head Attention、FNN前馈网络和优化器Adam。Transformer通过注意力机制解决了长文本分析的问题,使用多头注意力并行提取特征,残差连接和正则化防止过拟合,提高了模型的预测能力和泛化性能。
摘要由CSDN通过智能技术生成

Background

Transformer发明的背景是在循环神经网络业已成熟阶段,但是成熟的循环神经网络例如LSTM和RNNS等对于长文本的分析效果并不是很理想。当时已经将注意力机制引入了编码器-解码器架构,典型的例子就是Seq2seq。但还是不够,于是就有大聪明想着直接不要之前的循环网络结构,完全应用注意力机制,但是这产生了一个问题就是如果像循环网络一样单向网络,就会导致特征分辨率大幅下降,于是能从多个方面并行进行分析的多头注意力机制就产生了,并经过多方编测,形成当今仍旧流行的transformer。具体可参考2017年Attention Is All You Need

Model Architecture

在这里插入图片描述

对模型进行从下到上的分析

Positional Encoding
由于我们的模型不包含递归和卷积,为了让模型利用序列的顺序,我们必须注入一些关于序列的的相对或绝对位置的信息。

Multi-Head Attention
在这里插入图片描述

多头的自我关注机制是转化器架构的一个关键组成部分。它允许模型根据输入序列的不同部分与预测任务的相关性来动态地衡量它们。
自我关注的基本思想是根据输入序列的每个元素与所有其

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值