一 背景
❝
大型语言模型(LLMs)通常是指具有数千亿参数的Transformer语言模型,这些模型在大规模文本数据上进行训练。LLMs展示了强大的自然语言理解能力和通过文本生成解决复杂任务的能力。2018年后预训练大语言模型的文本理解能力在一些测评上首度超越人类。进而发现一个趋势:增加参数和数据是进一步提高模型性能的有效手段。大模型掌握丰富的知识:世界知识、常识、逻辑推理,只需要少量的提示或者微调,就能激发模型完成指定的任务。
❞
在推动机器语言智能方面,语言建模(LM)是一种重要的技术方法之一。LM旨在建立单词序列的生成概率模型,以预测未来(或缺失)标记的概率。LM的研究已经得到广泛关注,并经历了四个主要的发展阶段。
-
第一个阶段是统计语言模型(SLM),它基于统计学习方法,通过建立单词预测模型来预测下一个单词。SLM在信息检索和自然语言处理等领域取得了一定的成果,但由于数据稀疏性问题,对高阶语言模型的准确估计变得困难。
-
第二个阶段是神经语言模型(NLM),它使用神经网络描述单词序列的概率。NLM引入了词的分布式表示概念,并通过学习单词或句子的有效特征来改进NLP任务的性能。NLM的出现对语言模型的表示学习产生了重要影响。
-
第三个阶段是预训练语言模型(PLM),其中包括BERT和GPT系列。这些模型通过在大规模无标签语料库上进行预训练任务,学习到通用的上下文感知的单词表示。PLM通过预训练和微调的学习范式,在多个NLP任务上取得了显著的性能提升。
-
第四个阶段大模型语言模型(LLM),通过增加模型规模或数据规模来提升性能。LLM展现出了惊人的能力,可以解决复杂的任务,并引发了对人工通用智能(AGI)可能性的重新思考。LLM的快速发展正在推动AI研究领域的创新。
二 技术方案
2.1 Fine-Tuning
「下面来自威斯康星大学麦迪逊分校的统计学教授Sebastian Raschka的总结。」
- Feature-Based Approach
在基于特征的方法中,可以加载预训练的 LLM 并将其应用到我们的目标数据集。生成训练集的输出嵌入可以将其用作输入特征来训练分类模型。虽然这种方法对于像 BERT 这样的以嵌入为中心的模型来说特别常见,但我们也可以从生成式 GPT 风格的模型中提取嵌入。分类模型可以是逻辑回归模型、随机森林或 XGBoost。
- Finetuning I – Updating The Output Layers(「最节省资源的方式」)
目前比较流行的一种方法是微调输出层。与基于特征的方法类似,保持预训练 LLM 的参数冻结。我们只训练新添加的输出层,类似于在嵌入特征上训练逻辑回归分类器或小型多层感知器。通过训练新添加的输出层,进行提取。
- Finetuning II – Updating All Layers(「需要资源多」)
虽然原始 BERT 论文(While the original BERT paper (Devlin 等人Devlin et al.)报告称,仅微调输出层可以获得与微调所有层相当的建模性能,但由于涉及更多参数,因此成本要高得多。例如,BERT 基础模型大约有 1.1 亿个参数。然而,用于二元分类的 BERT 基础模型的最后一层仅包含 1,500 个参数。此外,BERT 基础模型的最后两层包含 60,000 个参数,仅占模型总大小的 0.6% 左右。
我们的里程将根据我们的目标任务和目标域与模型预训练数据集的相似程度而有所不同。但在实践中,微调所有层几乎总是会带来卓越的建模性能。
2.2 parameter-efficient fine-tuning技术
-
其中一种参数高效的fine-tuning技术称为蒸馏(distillation),它由Hinton等人于2015年引入。该方法涉及训练一个较小的模型来模仿一个较大的预训练模型的行为。预训练模型生成“教师”预测结果,然后用于训练较小的“学生”模型。通过这样做,学生模型可以从较大模型的知识中学习,而无需存储所有参数。
-
另一种技术称为适配器训练(adapter training),它由Houlsby等人于2019年引入。适配器是添加到预训练模型中的小型神经网络,用于特定任务的微调。这些适配器只占原始模型大小的一小部分,这使得训练更快,内存需求更低。适配器可以针对多种任务进行训练,然后插入到预训练模型中以执行新任务。
-
第三种技术称为渐进收缩(progressive shrinking),它由Kaplan等人于2020年引入。这种技术涉及在fine-tuning期间逐渐减小预训练模型的大小。从一个大模型开始,逐渐减少参数的数量,直到达到所需的性能。这种方法可以产生比从头开始训练的模型性能更好的小型模型。
2.3 Prompt
❝
当年BERT横空出世,其强大的自然语言处理能力给大家带来震撼的同时也让大家发现该模型训练成本较高,难以基于该模型架构应用在新的领域。因此,fine-tuning技术也随之流行。而进入到ChatGPT时代,有两个问题变得不同:一个是模型规模巨大,传统的fine-tuning也难以进行;另一个是尽管ChatGPT可以更好地理解人类意图,回答人类的问题,但是不同的提问也会影响模型的输出,那么如何合理的提问获得更好的结果也变得重要。
❞
-
测试1
-
测试2
三 参考资料
-
Bert: Pre-training of deep bidirectional transformers for language understanding
-
Scaling down to scale up: A guide to parameter-efficient fine-tuning
-
Parameter-efficient transfer learning for NLP
-
WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents
-
LoRA: Low-Rank Adaptation of Large Language Models
-
Prompting LeaderBoard http://explainaboard.nlpedia.ai/leaderboard/prompting/
-
Homepage NLPedia http://pretrain.nlpedia.ai/
-
Timeline of Prompt Learning http://pretrain.nlpedia.ai/timeline.html
-
Follow-up : PromptPapers https://github.com/thunlp/PromptPapers
-
Open-Source Framework : OpenPrompt https://github.com/thunlp/OpenPrompt
AI大模型学习福利
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
如何学习AI大模型? 零基础入门到精通,收藏这一篇就够了
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型商业化落地方案
作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。