大模型
文章平均质量分 90
全网最全资料整理,大模型相关知识全解
半度、
这个作者很懒,什么都没留下…
展开
-
【论文速读】GPT-1:Improving Language Understanding by Generative Pre-Training
自然语言理解包括广泛的不同的任务,如文本隐含、问题回答、语义相似性评估和文档分类。虽然大量的未标记文本语料库非常丰富,但用于学习这些特定任务的标记数据非常稀缺,这使得经过区别训练的模型要充分执行任务具有挑战性。我们证明,通过在不同的未标记文本语料库上对语言模型进行生成式预训练,然后对每个特定任务进行区分性微调,可以实现这些任务上的巨大收益。原创 2024-05-25 17:09:01 · 966 阅读 · 0 评论 -
【论文速读】Transformer:Attention Is All You Need
我们提出了一种新的简单的网络架构,Transformer,完全基于注意力机制,完全取消RNN和CNN。在两个机器翻译任务上的实验表明,这些模型在质量上更优越,同时更并行,需要的训练时间明显更少。原创 2024-05-25 09:44:35 · 961 阅读 · 0 评论 -
大模型都在用的GQA是什么
Multi-query attention(MQA)只使用一个键值头,大大加快了解码器推理。然而,MQA可能导致质量下降,而且不为了更快的推断而训练一个单独的模型。我们提出了一个方法,将现有的多头语言模型检查点升级成MQA模型,引入分组查询注意(GQA),一种多查询注意的泛化,使用一个中间(多于一个,少于查询头数量)的键值头。我们表明,向上训练的GQA以接近MQA的速度达到接近多头注意力的质量。MHA(Multi-head Attention)是Google团队在 2017 年在。原创 2024-05-12 20:03:28 · 783 阅读 · 0 评论 -
【全网首发】大模型入门、概念详解、综述
学完上面两篇论文,对NLP应该已经有了一定认知,接下来需要对每一篇文章逐篇学习。相信你学完后,对大模型有更加全面的认知。下面这两篇文章总结的非常到位,只想入门的小伙伴大力推荐。原创 2024-05-12 18:39:38 · 1052 阅读 · 0 评论