Karrrma-CSDN博客

原创双向Transformer的Encoder——BERT

首先，BERT表示将被输入到一个添加的输出层中，根据任务的性质对模型体系结构进行最小的更改，例如对每个词元的预测和对整个序列的预测。除了输出层之外，在预训练和微调中也使用了相同的架构。给定一个问题，和描述文字，找出一个片段作为回答，对片段中的每个词元预测它是不是回答的开头或结束，然后返回两个整数分别表示开始和结束是给定描述文字第几个词，所以开始和结束（包括自身）中间的部分就是答案。即使下游任务各有不同，使用BERT微调时均只需要增加输出层，但根据任务的不同，输入的表示，和使用的BERT特征也会不一样。

2023-11-30 01:11:46 395

原创对Transformer用于句子翻译的理解

贪婪搜索和束搜索都是针对多个时间步,每一轮都要比较概率大小的,因此所有预测生成1个单词或者进行单词翻译的都谈不上贪婪搜索和束搜索(没有多个时间步),直接用predict=model(inputs)的也谈不上贪婪搜索和束搜索(没有每一轮比较概率大小). 对于Seq2Seq和采用了序列模型的transformer来说,贪婪搜索和束搜索都应该用预测的单词覆盖填充的'SPPPP'中的'P'编码器的输入首先流过一个self-attention层，该层帮助编码器能够看到输入序列中的其他单词当它编码某个词时。

2023-11-23 01:46:12 64 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 双向Transformer的Encoder——BERT

原创 对Transformer用于句子翻译的理解

空空如也

空空如也

原创双向Transformer的Encoder——BERT

原创对Transformer用于句子翻译的理解