LLM之新手入门：大预言模型的概念介绍与应用

APlayBoys

已于 2024-03-18 01:28:52 修改

阅读量3.6k

点赞数 30

分类专栏： LLM教程文章标签：人工智能 chatgpt 深度学习 AI写作 AIGC langchain

于 2024-03-14 11:55:40 首次发布

本文链接：https://blog.csdn.net/qq_17827079/article/details/136706225

版权

最近，我在系统地学习大型语言模型（LLM）的相关知识。在这个学习过程中，我努力将所学的内容整理成博客文章。在这篇博客中，我首先简要介绍了人工智能的发展历史，然后探讨了大型模型的基本原理、训练方法、微调技巧、实际使用方式、模型压缩策略以及它们可能的应用场景。通过这篇文章，读者可以对大型语言模型的整体框架和功能有一个初步而全面的认识。

博客首发地址：LLM之新手入门：大语言模型LLM的概念汇总与应用 - 知乎

1 大语言模型：NLP技术的奇点时刻

1.1 技术探索：深度学习加速推进数据的无损压缩

人类对机器智能的探索由来已久:

如何让机器像人类一样思考，获得与人类相当的智能，一直是很多工智能学者毕生的目标。自英国数学家阿兰·图灵在1950 年提出了“机器能思考吗”这一跨世纪的命题以来，人类就从未停止对机器智能的探索。从最简单的统计规则方法，到借鉴人类大脑生物结构的神经网络模型，再到如今拥有千亿级参数的超大规模预训练模型，深度学习因其能够实现非线性空间的有效变换，并能利用GPU等硬件实现加速计算，因而成为人工智研究领域的核心主线。无论是早期的RNN，还是其改进后的变体LSTM，亦或是本轮生成式AI浪潮的起源 Transformer，它们本质上都是用一个更有效的神经网络去实现数据的无损压缩，而数据的压缩能力或许就是机器智能的一种展现。

人工智能底层算法的探索历程

1.2 技术应用：预训练语言模型成为 NLP 主流

从单一小模型到预训练模型的范式转移:

语言模型的本质是对任意一段文本序列进行概率建模，用一个高维向量来表示一个 token 的全部特征。

早期的研究者发明了 Word2Vec，一种用于将自然语言中的单词表示为向量的技术，它基于神经网络，并且可以通过训练大规模语料库来学习单词之间的语义和语法关系，是深度学习应用在 NLP 领域的早期范式；
随着对长文本特征提取能力更强，计算效率更高的神经网络的提出，研究者开始尝试用更多的数据去训练一个能力更强的模型——预训练模型，然后通过迁移学习的方法使其适用于下游特定的任务。这就是 Google 在 2018 年提出的 BERT（Bidirectional Encoder Representation from Transformers，基于Transformer 的双向编码器）的核心思想；
然而，OpenAI 在这一时期坚定押注于 GPT（Generative Pre-Trained Transformer，基于 Transformer 的单向解码器）这一路线，坚信通过优化“下一个词预测”，以及扩大训练模型的参数量和数据量，机器能够对文本语料拥有与人类相似的“理解”能力。当前，OpenAI 与 ChatGPT 的成功，使得运用大语言模型做“预训练+提示”的范式，逐步取代了 BERT 时代“预训练+下游任务改造”的范式，成为了 NLP 业内新的主流。

自然语言处理（NLP）发生的三次技术范式转移

1.3 技术跃迁：大语言模型可能打开通往AGI之路

直到2022年底ChatGPT发布，学界和工业界开始意识到，OpenAI 对生成类模型（GPT）和算法规模化（Scalability）的两个基础技术路线押注，可能是让机器获得智能的可行路径，甚至是打开通往通用人工智能（AGI，Artificial General Intelligence）这一终极理想的金钥匙。因此，我们可以认为，当前以ChatGPT 为代表的大语言模型开启的本轮科技浪潮，其重要性可能高于过去任何一次 AI 技术的突破，实现 AGI 的愿景可能已并不遥远。当然，技术的突破与未来的潜在瓶颈也正都源于此，大模型与生俱来的 Hallucination（幻觉）使其输出的内容天生具有可靠性低的特点；另一方面，大模型的模型规模化能力的天花板也有待进一步探索。因此，提升模型可靠性和提升模型性能共同构成了大模型未来迭代的核心靶点。