GPT系列
文章平均质量分 62
oblivion_Dou
这个作者很懒,什么都没留下…
展开
-
GPT论文阅读:Language Models are Unsupervised Multitask Learners
abstractGPT-2是一个参数量为1.5B的transformer,在zero-shot设定下,在8个测试语言建模数据集中,有7个取得了最先进的结果最主要的贡献是在没有使用微调的情况下,在参数量更大的模型进行预训练,通过prompt和预测层在多个任务中达到SOTA。原创 2024-09-24 17:26:26 · 379 阅读 · 0 评论 -
GPT论文阅读:Improving Language Understanding by Generative Pre-Training
abstract在未标记文本语料库上对语言模型进行生成式预训练,然后对每个特定任务进行区分性微调。method训练过程包括两个阶段。第一阶段是在大型文本语料库上进行自监督训练。第二阶段在带标签数据进行微调。原创 2024-09-24 15:46:40 · 306 阅读 · 0 评论