动手学LLM（ch1）

爱编程的古惑仔

已于 2024-09-26 10:59:16 修改

阅读量336

点赞数 3

文章标签：语言模型深度学习人工智能 AIGC 学习

于 2024-09-26 10:54:24 首次发布

本文链接：https://blog.csdn.net/m0_56569131/article/details/142548737

版权

前言

这一系列的笔记是根据《Build a Large Language Model (From Scratch)》这本书开始，接下来会整体记录整个学习笔记。在学习这个之前，建议先过一遍transformer的原理.......

GitHub地址：https://github.com/rasbt/LLMs-from-scratch?tab=readme-ov-file

第一章的内容，书上在这一小结巴拉巴拉说了很多，如果有些基础的里面很多都是废话，所以我这里总结一下即可...........

1.1 理解大型语言模型

LLM开创了自然语言处理（NLP）的新时代。传统方法在垃圾邮件分类和简单模式识别等分类任务中表现出色，这是由于这些任务可以用手工规则或更简单的模型来捕捉。然而，在需要复杂理解和生成能力的语言任务中，如解析详细说明、进行上下文分析或创建连贯且与上下文相适应的原始文本时，这些方法通常表现不佳。LLM在复杂语言任务中展现了卓越的理解和生成能力，能够处理细致的上下文分析和连贯的文本生成。它们基于深度学习和海量文本数据进行训练，通过transformer架构捕捉语言的微妙之处，显著提升了文本翻译、情感分析和问题解答等任务的性能。与以往为特定任务设计的模型不同，LLM具备更广泛的应用能力。

1.2 什么是LLM

大型语言模型（LLM）是基于深度神经网络的神经网络，旨在理解和生成类人文本。它们通过在海量文本数据上训练，掌握语言的上下文和结构，具有预测下一个单词的能力。LLM采用transformer架构，能够选择性关注输入的不同部分，从而处理语言的细微差别和复杂性。由于具备生成文本的能力，LLM也被视为生成式人工智能（GenAI）的一种形式。与传统机器学习不同，深度学习不需要人工提取特征，能够自动识别数据中的复杂模式，广泛应用于各种自然语言处理任务。

1.3 LLMs的应用

大型语言模型（LLM）因其解析和理解非结构化文本的能力，已广泛应用于多个领域，包括机器翻译、文本生成、情感分析和文本摘要。LLM还被用于内容创作，如撰写小说和计算机代码，并为复杂聊天机器人和虚拟助手提供动力，如OpenAI的ChatGPT和谷歌的Gemini。此外，LLM能够从医学和法律等专业领域的大量文本中进行知识检索，处理文档筛选和技术问题回答。随着对LLM应用的持续探索，它们有潜力重新定义我们与技术的互动方式。在本书中，将探讨LLM的工作原理，以及如何构建类似ChatGPT的文本生成助手。

可用于从医学或法律等专业领域的大量文本中进行有效的知识检索*：本句说明LLM不仅适用于通用语言处理，还能够处理专业领域的文本数据。知识检索是指在大量文本中查找和提取所需信息的过程，而这种其实为了更专业回答相关问题，会涉及RAG相关技术的使用。而这正是大模型的两个比较火热的应用研究方向之一，另外一个是Agent*相关技术。