AIGC
文章平均质量分 96
O_meGa
这个作者很懒,什么都没留下…
展开
-
1、理解Transformer:革新自然语言处理的模型
位置编码是以一种特定的模式添加的,它对每个位置上的嵌入向量进行修改,使得不同位置的嵌入向量能够反映出它们的位置关系。Transformer 编码器的结构由多个相同的层(layer)堆叠而成,每一层都有两个主要子模块,以及一个残差连接跟随每个子模块,最后是层归一化(Layer Normalization)。由于 Transformer 的自注意力机制并不区分序列中不同位置的元素,即它本身不像循环神经网络(RNN)那样具有处理序列的固有顺序性,所以需要一种方法来保证模型能够利用单词的顺序信息。原创 2024-01-07 16:59:04 · 2189 阅读 · 0 评论 -
GPT2:Language Models are Unsupervised Multitask Learners
基于 Transformer 解码器的 GPT-1 证明了在特定的自然语言理解任务 (如文档分类等) 的标注数据较少的情况下,通过充分利用好大量的无标注的数据,也能取得很强的性能。,但是不一样的是,它证明了语言模型可以在 Zero-shot 的情况下执行下游任务,也就是说,GPT-2 在做下游任务的时候可以无需任何标注的信息,也无需任何参数或架构的修改。个人理解,GPT-2本身做的是GPT-1中的预训练,但是在一个更大的数据集上,用更大的模型通过自监督的方式学到了任务无关的特性。是上下文窗口的大小。原创 2024-01-05 17:22:03 · 1017 阅读 · 0 评论 -
GPT1:Improving Language Understanding by Generative Pre-Training
在这个任务中,我们可以看到挖去的单词之前和之后的单词,因此我们可以使用Transformer的编码器来完成这个任务,编码器可以看到所有单词。而GPT选择了一种更加困难的目标,即从前面的一段文本预测接下来的一个单词,这比完形填空要更具挑战性,因为预测一个开放式的结局,要比预测一个中间状态难很多。而对于解码器来说,由于存在掩码,当提取第I个元素的特征时,它只能看到当前元素和它之前的元素,后面的元素被掩码处理,注意力机制计算时会被视为0,所以解码器无法看到后面的内容。我们提取单词U前的K个单词,形成序列。原创 2024-01-05 14:03:03 · 1049 阅读 · 0 评论