预训练模型五大模型结构

转载乘风破浪的PTM:两年来预训练模型的技术进展 - 知乎

Encoder-AE 结构

特点:可以同时看到上文和下文

代表:BERT

优点:适合语言理解类的任务

缺点:不适合语言生成类的任务

Encoder-AR 结构

特点:只能看到上文或者下文

代表: GPT1/2/3

优点:适合语言生成类的任务

缺点:不适合语言理解类的任务

Encoder-Decoder 结构

特点:encoder时采用AE模式,decoder时采用AR模式

代表: BART、Google T5

优点:同时适合语言理解类的任务和语言生成类的任务

Prefix LM结构

特点:

Prefix LM 结构是 Google T5 论文中给出的叫法,这种结构最早由 UniLM 模型提出,我们沿用 Google T5 的这种称谓。如果深入分析的话,Prefix LM 其实是 Encoder-Decoder 模型的变体:标准的 Encoder-Decoder 模型,Encoder 和 Decoder 各自使用一个独立的 Transformer;而 Prefix LM,相当于 Encoder 和 Decoder 通过分割的方式,分享了同一个 Transformer 结构,Encoder 部分占用左部,Decoder 部分占用右部,这种分割占用是通过在 Transformer 内部使用 Attention Mask 来实现的。与标准 Encoder-Decoder 类似,Prefix LM 在 Encoder 部分采用 AE 模式,就是任意两个单词都相互可见,Decoder 部分采用 AR 模式,即待生成的单词可以见到 Encoder 侧所有单词和 Decoder 侧已经生成的单词,但是不能看未来尚未产生的单词,就是说是从左到右生成。

Prefix LM 因为是 Encoder-Decoder 的变体,所以可以看出,它的优势也在于可以同时进行语言理解和语言生成类任务,而且相对 Encoder-Decoder 来说,因为只用了一个 Transformer,所以模型比较轻,这是 Prefix LM 的优势。缺点则是在效果方面,貌似要弱于 Encoder-Decoder 模型的效果,语言理解类任务相对有明显差距,生成类任务的效果相差不大。

代表: UniLM

Permuted LM结构

特点:形为 AR,实为 AE(通过Attention Mask处理,本质上是prefix lm的一种变体)

代表: XLNet

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
VGG16是由Karen Simonyan和Andrew Zisserman于2014年提出的深度卷积神经网络模型。它在ImageNet Large Scale Visual Recognition Challenge 2014中获得了第二名的好成绩。VGG16模型使用了16层卷积神经网络,因此得名为VGG16。 VGG16模型结构主要分为两个部分:卷积层和全连接层。其中卷积层包括13个卷积层和5个max pooling层,全连接层包括3个全连接层和一个softmax层。 下面我们来详细介绍一下VGG16模型结构。 1.卷积层 VGG16模型的第一层是一个224x224x3的输入层。接下来是第一个卷积层,该层使用了64个3x3的卷积核进行卷积操作,并使用了ReLU激活函数。这一层的输出大小为224x224x64。其次是第二个卷积层,该层同样使用了64个3x3的卷积核进行卷积操作,并使用ReLU激活函数。这一层的输出大小为224x224x64。 接下来是第三个卷积层,该层使用了128个3x3的卷积核进行卷积操作,并使用ReLU激活函数。这一层的输出大小为112x112x128。其次是第四个卷积层,该层同样使用了128个3x3的卷积核进行卷积操作,并使用ReLU激活函数。这一层的输出大小为112x112x128。 接下来是第五个卷积层,该层使用了256个3x3的卷积核进行卷积操作,并使用ReLU激活函数。这一层的输出大小为56x56x256。其次是第六个卷积层,该层同样使用了256个3x3的卷积核进行卷积操作,并使用ReLU激活函数。这一层的输出大小为56x56x256。接下来是第七个卷积层,该层同样使用了256个3x3的卷积核进行卷积操作,并使用ReLU激活函数。这一层的输出大小为56x56x256。 接下来是第八个卷积层,该层使用了512个3x3的卷积核进行卷积操作,并使用ReLU激活函数。这一层的输出大小为28x28x512。其次是第九个卷积层,该层同样使用了512个3x3的卷积核进行卷积操作,并使用ReLU激活函数。这一层的输出大小为28x28x512。接下来是第十个卷积层,该层同样使用了512个3x3的卷积核进行卷积操作,并使用ReLU激活函数。这一层的输出大小为28x28x512。 接下来是第十一个卷积层,该层使用了512个3x3的卷积核进行卷积操作,并使用ReLU激活函数。这一层的输出大小为14x14x512。其次是第十二个卷积层,该层同样使用了512个3x3的卷积核进行卷积操作,并使用ReLU激活函数。这一层的输出大小为14x14x512。接下来是第十三个卷积层,该层同样使用了512个3x3的卷积核进行卷积操作,并使用ReLU激活函数。这一层的输出大小为14x14x512。 2.max pooling层 在卷积层之后,VGG16模型使用了5个max pooling层,用于缩小特征图的尺寸。每个max pooling层使用了2x2的池化窗口,步长为2,因此每个max pooling层的输出大小为输入大小的一半。这些max pooling层在VGG16模型中的位置分别是第2、第4、第7、第10和第13层。 3.全连接层 在卷积层和max pooling层之后,VGG16模型使用了3个全连接层和一个softmax层。每个全连接层包含4096个神经元,并使用ReLU激活函数。第一个全连接层的输入是7x7x512的特征图,由于全连接层需要的是向量输入,因此需要将其展开为一个向量。第二个和第三个全连接层的输入是4096维的向量。最后一个softmax层包含1000个神经元,对应ImageNet数据集的1000个类别。 以上就是VGG16模型结构。在实现时,可以使用深度学习框架,如TensorFlow和PyTorch,来构建和训练模型。使用预训练的VGG16模型,可以在计算机视觉任务中取得很好的效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值