大型语言模型（LLM）学习笔记

最新推荐文章于 2024-09-08 22:38:01 发布

2303_81835136

最新推荐文章于 2024-09-08 22:38:01 发布

阅读量410

点赞数 7

文章标签：语言模型学习笔记

本文链接：https://blog.csdn.net/2303_81835136/article/details/140894663

版权

大型语言模型理论简介

定义和特点：大语言模型是指那些在大量文本数据上进行训练、包含数十亿甚至数千亿参数的语言模型。例如，GPT-3、PaLM和LLaMA等都是典型的例子。这些模型通过预训练和微调的方法来提高其性能，使其能够在各种自然语言处理任务中表现出色。能够处理海量文本，多数具有数百亿参数，理解语言深度，展现涌现能力。

模型大小与性能关系：与小模型构架相似，但参数量级提升带来解决复杂任务的显著优势。

Transformer是它们的基本机制，是一种用于自然语言处理（NLP）和其他序列到序列任务的深度学习模型架构。它通过引入自注意力机制（self-attention mechanism），能够聚焦于输入序列中的重要部分，类似人类阅读，能够并行处理输入数据，从而显著提升计算效率和性能。

原理：Transformer通过将输入的序列分解成一个一个的Token(类似于单词或字符)，并分别对每个token应用注意力机制，能够并行的处理每个序列实现高效输出。

大型语言模型需要token输出输入，原因是计算机不能理解文本，通过分词器将文本转换为对应的数字，形成不同的token，最后将形成Token ID，这个过程叫编码。

常见的LLM:

闭源的如GPT模型（chatGPT-4的性能远超chatGPT-3的，支持多模态输入）

大模型的构建

驱动云

点击创建项目

设置配置后，点击立即启动。

点击开发者环境。就可以创建自己的大模型。（开发环境仅 /gemini/code/ 是持久化目录，输出到 $GEMINI_DATAOUT 目录下的训练结果在开发环境重启后会丢失，仅适合调试时短暂使用。）

镜像

平台中的镜像指 “Docker镜像”，在平台中镜像用于为 AI 模型调试和训练提供环境，这个环境就是指内置了部分 AI 研发所需工具的操作系统。当提交训练或提交开发环境初始化任务时，平台会根据任务关联的镜像，将其打包的操作系统运行在容器中供您调试和训练使用。
目前平台提供了开箱即用的官方镜像，同时也提供了基于官方镜像制作私有镜像的能力，暂不支持上传镜像。

Docker 镜像是由多层镜像叠加而成，镜像层数可能会很多，每层镜像针对不同的目的有其独立的能力和变更，上层变更覆盖下层但不会修改下层镜像本身，因此镜像层可被多个容器共享，Docker 镜像总大小为所有镜像层的镜像大小总和。

Stable Diffusion

一种生成图像的大模型，具有稳定性高，生成速度快的特点。

组成：文本编码器：将文本输入转换为向量表示，以便于模型理解生成图片。

图像解码器：将向量转换为图片，生成特定风格的图片。

噪音预测器：预测图片中的噪音，以便于模型更好的控制图片的质量。

stable diffusion的应用

可以用于艺术创作、电影特效、游戏开发等创意产业，也可以应用于科学研究和工程设计中。

2303_81835136

关注

7
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
大型语言模型（LLM）学习笔记

大型语言模型理论简介定义和特点：大语言模型是指那些在大量文本数据上进行训练、包含数十亿甚至数千亿参数的语言模型。例如，GPT-3、PaLM和LLaMA等都是典型的例子。这些模型通过预训练和微调的方法来提高其性能，使其能够在各种自然语言处理任务中表现出色。能够处理海量文本，多数具有数百亿参数，理解语言深度，展现涌现能力。模型大小与性能关系：与小模型构架相似，但参数量级提升带来解决复杂任务的显著优势。
复制链接

扫一扫