大型语言模型(LLM)学习笔记

大型语言模型理论简介

定义和特点:大语言模型是指那些在大量文本数据上进行训练、包含数十亿甚至数千亿参数的语言模型。例如,GPT-3、PaLM和LLaMA等都是典型的例子。这些模型通过预训练和微调的方法来提高其性能,使其能够在各种自然语言处理任务中表现出色。能够处理海量文本,多数具有数百亿参数,理解语言深度,展现涌现能力。

模型大小与性能关系:与小模型构架相似,但参数量级提升带来解决复杂任务的显著优势。

Transformer是它们的基本机制,是一种用于自然语言处理(NLP)和其他序列到序列任务的深度学习模型架构。它通过引入自注意力机制(self-attention mechanism),能够聚焦于输入序列中的重要部分,类似人类阅读,能够并行处理输入数据,从而显著提升计算效率和性能。

原理:Transformer通过将输入的序列分解成一个一个的Token(类似于单词或字符),并分别对每个token应用注意力机制,能够并行的处理每个序列实现高效输出。

大型语言模型需要token输出输入,原因是计算机不能理解文本,通过分词器将文本转换为对应的数字,形成不同的token,最后将形成Token ID,这个过程叫编码。

常见的LLM:

闭源的如GPT模型(chatGPT-4的性能远超chatGPT-3的,支持多模态输入)

大模型的构建

驱动云

点击创建项目

设置配置后,点击立即启动。

 

点击开发者环境。就可以创建自己的大模型。(开发环境仅 /gemini/code/ 是持久化目录,输出到 $GEMINI_DATAOUT 目录下的训练结果在开发环境重启后会丢失,仅适合调试时短暂使用。) 

镜像

平台中的镜像指 “Docker镜像”,在平台中镜像用于为 AI 模型调试和训练提供环境,这个环境就是指内置了部分 AI 研发所需工具的操作系统。当提交训练或提交开发环境初始化任务时,平台会根据任务关联的镜像,将其打包的操作系统运行在容器中供您调试和训练使用。
目前平台提供了开箱即用的官方镜像,同时也提供了基于官方镜像制作私有镜像的能力,暂不支持上传镜像。

Docker 镜像是由多层镜像叠加而成,镜像层数可能会很多,每层镜像针对不同的目的有其独立的能力和变更,上层变更覆盖下层但不会修改下层镜像本身,因此镜像层可被多个容器共享,Docker 镜像总大小为所有镜像层的镜像大小总和。

Stable Diffusion

一种生成图像的大模型,具有稳定性高,生成速度快的特点。

组成:文本编码器:将文本输入转换为向量表示,以便于模型理解生成图片。

图像解码器:将向量转换为图片,生成特定风格的图片。

噪音预测器:预测图片中的噪音,以便于模型更好的控制图片的质量。

stable diffusion的应用

可以用于艺术创作、电影特效、游戏开发等创意产业,也可以应用于科学研究和工程设计中。

  • 7
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值