nlp
文章平均质量分 87
码源
这个作者很懒,什么都没留下…
展开
-
预训练模型--BERT
前言上一篇文章中讲到了GPT,也简单讲到了GPT和BERT的区别,这里先贴回来温习一下:GPT和BERT之间的区别是:GPT选择了transformer中decoder阶段结构作为预训练结构;而BERT选择了transformer中encoder阶段结构作为预训练结构。这样首先需要知道encoder结构和decoder结构之间的利弊:encoderdecoder双向网络单向网络没有天然的预测目标(Bert自己构造mask)有天然的预测目标(天然mask+预测下一个词)原创 2022-01-03 21:37:55 · 916 阅读 · 0 评论 -
预训练模型--GPT
why预训练+finetune目前在nlp领域,比较流行的一种方式就是“pretrain+finetune”为什么是这种模式呢?在nlp领域大量数据是无标签的,只有小量数据是有标签的,而大量数据可以帮助模型获得更好的效果(泛化能力),所以在pretrain阶段采用大量无标签的数据无监督学习(在此阶段模型没有明确的下游任务目标,学习的是普适的文本特征),而再在finetune阶段再根据不同具体任务使用小量有标签的数据有监督微调;在nlp领域任务种类并不只有一种,也就是说上面提到的finetune阶段原创 2021-12-26 20:32:26 · 3894 阅读 · 0 评论