
大模型
文章平均质量分 91
大模型理论及实战
酒酿小圆子~
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【大模型】Qwen, DeepSeek, GLM的API接口调用(官方示例+LangChain示例)
【代码】【大模型】Qwen, DeepSeek, GLM的API接口调用(官方示例+LangChain示例)原创 2025-05-08 15:30:29 · 1318 阅读 · 0 评论 -
LLM和Multi-Agent在运维领域的实验探索
来源:华为云确定性运维专刊(第五期)转载 2025-05-08 09:52:05 · 383 阅读 · 0 评论 -
Function Call & ReACT,Agent应用落地的加速器
在大模型的涌现能力刚被人们发掘的时候,人们意识到生成式AI的潜力可能不止局限于文本内容的生成,如果让大模型能够和外部世界交互,是不是就能获得更广泛的信息,甚至对外部环境造成一定影响?基于这个出发点,研究者把推理(例如思维链提示)和行动(例如 WebGPT、SayCan、ACT-1)进行结合,并提出了ReACT框架,其核心思想是将推理和行动结合起来,形成一个智能、自主的智能体结构,并拥有与外部环境交互的能力。转载 2025-04-18 10:44:26 · 224 阅读 · 0 评论 -
大模型微调方法对比分析:Prompt Tuning、Prefix-Tuning、P-Tuning、Adapter Tuning
在本篇博客中,主要对 Prompt Tuning、Prefix-Tuning、P-Tuning、Adapter Tuning 这几类微调方法进行对比,总结每种方法的特点和优缺点。训练大型预训练语言模型非常耗时且计算密集。随着模型规模的增长,人们越来越关注更高效的训练方法,比如Prompting。Prompting通过包含一段描述任务或展示任务示例的文本提示,为特定的下游任务调整一个冻结的预训练模型。有了Prompting,你可以避免为每个下游任务完全训练一个单独的模型,而是使用同一个冻结的预训练模型。 这样转载 2025-04-16 15:28:26 · 697 阅读 · 0 评论 -
【大模型】GLM模型架构及原理详解
在日益增多的开源大模型中,由清华大学研发的开源大模型 GLM 由于效果出众而受到大众关注。转载 2025-04-12 15:56:51 · 1258 阅读 · 0 评论 -
【大模型】LoRA微调时如何选择参数
一般来说,LoRA微调会集中在以下层:Attention层的查询、键、值和输出投影(q_proj, k_proj, v_proj, o_proj)转载 2025-04-11 15:25:46 · 1565 阅读 · 0 评论 -
【大模型】为什么现在的LLM都是Decoder only的架构?
泛化能力更强(1)Next Token Prediction的预训练目标任务难度更高:Decoder-only模型通过自回归(AR)逐词预测下一个token,每个位置仅能依赖历史信息(无法“偷看”未来),迫使模型学习更强的上下文建模能力。Zero-shot/Few-shot表现更好:论文通过实验证明,在相同参数量和数据规模下,Decoder-only架构在零样本(zero-shot)任务上的泛化性能显著优于Encoder-Decoder(如T5)或纯Encoder架构(如BERT)。原创 2025-03-31 22:20:38 · 1706 阅读 · 0 评论 -
【大模型】微调一个大模型需要多少 GPU 显存?
模型微调所需的 GPU 显存取决于多个因素,包括模型大小、微调方法和优化策略。全量微调需要较大显存,而高效微调方法如 LoRA 和 QLoRA 可以显著减少显存需求。在实际项目中,还需考虑硬件配置和训练策略等因素来更精确地估算 GPU 显存需求。原创 2025-03-31 21:30:57 · 2732 阅读 · 0 评论 -
【大模型】归一化方法之Batch Norm, Layer Norm, RMS Norm
Normalization在统计学中一般翻译为归一化,现在已经成了神经网络中不可缺少的一个重要模块了。还有类似的是Standardization,一般翻译成标准化。这两个概念有什么区别呢?归一化是将数据缩放到0-1之间标准化是将数据缩放到均值为0,方差为1的正态分布。有时候Normalization和Standardization会混淆,注意看清楚即可,不纠结细节。注意:我们下面讲到的Normalization归一化严格讲应该称为Standardization 标准化。原创 2025-03-29 10:57:46 · 2725 阅读 · 0 评论 -
【大模型】激活函数之SwiGLU详解
Swish是由Google Brain提出的一种激活函数,它的数学表达式如下:其中σx\sigma(x)σx是sigmoid函数,β是一个可学习的参数。当β趋近于0时,Swish函数趋近于线性函数yx2y = x^2yx2当β取值为1时,Swish函数是光滑且非单调的,等价于SiLU激活函数当β趋近于无穷大时,Swish函数趋近于ReLU函数。原创 2025-03-28 22:23:30 · 3501 阅读 · 1 评论 -
主流大模型采用的架构、注意力机制、位置编码等汇总表
表中的一些模型已经是很久之前的了,比如DeepSeek V3中使用了MLA的注意力机制。先占个位,后续如果有更新的汇总表再来更新吧。原创 2025-03-28 21:43:46 · 398 阅读 · 0 评论 -
【大模型】大模型评价指标汇总解析
(1)基于重叠的度量BLEU:BLEU评分是一种基于精度的衡量标准,范围从0到1。值越接近1,预测越好。ROUGE:ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一套用于评估自然语言处理中自动摘要和机器翻译软件的度量标准和附带的软件包。ROUGE-N:测量候选文本和参考文本之间的n-gram(n个单词的连续序列)的重叠。它根据n-gram重叠计算精度,召回率和F1分数。原创 2025-03-27 16:37:58 · 5102 阅读 · 0 评论 -
大模型训练框架DeepSpeed原理解析及应用实战
大模型训练框架 DeepSpeed 详解DeepSpeed 是一个由微软研究院开发的深度学习优化库,它主要针对大规模分布式训练进行了优化,尤其是在使用大量 GPU 进行训练时可以显著提高效率。DeepSpeed 旨在降低模型并行和数据并行的通信开销,同时提供了一系列工具来帮助研究人员和开发者更容易地训练大型模型。:这是一种减少内存使用的优化器,通过将模型状态分布在多个 GPU 上来减少内存占用。混合精度训练:支持 FP16 和 BF16 训练以减少内存使用并加速计算。流水线并行性。转载 2025-03-27 10:20:47 · 1270 阅读 · 0 评论 -
【Agent】LangSmith的配置及使用
LangChain 使得原型设计大型语言模型(LLM)应用程序和代理变得容易。然而,将 LLM 应用程序交付到生产环境可能会异常困难。可能需要大量定制和迭代prompt、chain和其他组件,以创建高质量的产品。为了帮助这个过程,推出了LangSmith,一个统一的平台,用于调试、测试和监控LLM 应用程序。原创 2025-03-21 10:55:49 · 2511 阅读 · 0 评论 -
深入理解束搜索(Beam Search)
束搜索是一种在序列生成任务中用于平衡搜索效率和准确性的算法,它通过同时保留多个候选序列,能够避免局部最优解问题。其束宽决定了搜索范围和计算复杂度,广泛应用于机器翻译、文本生成和语音识别等任务。转载 2025-03-20 15:43:08 · 527 阅读 · 0 评论 -
【LangChain】理论及应用实战(5):Agent
大模型跟人脑一样存储了大量的知识,我们不仅希望用这些知识来做一些简单的问答,我们更希望它也可以像人一样做一些自主决策,这就意味着要求它能够在没有人参与的情况下独立完成一些具有一定复杂度的任务。这个完成任务的过程就包括将任务切分成一些具体的小任务,以及每一步完成后接下来要做什么等这样的推理过程。langchain中的agent就是基于这种目标的一项功能。Memory(记忆)智能体用来存储和检索历史信息的组件。它允许智能体在多次交互中保持上下文,从而做出更连贯和相关的响应。原创 2025-03-17 21:08:35 · 1423 阅读 · 0 评论 -
【LangChain】理论及应用实战(6):Tool
在构建 Agent 时,需要提供一个它可以使用的 Tool 列表。除了被调用的实际函数外,Tool 由几个组件组成:函数;LangChain 运行接口;通过从 BaseTool 子类化 – 这是最灵活的方法,它提供了最大的控制程度,但需要更多的努力和代码。从函数创建工具可能足以满足大多数用例,可以通过简单的 @tool 装饰器 来完成。如果需要更多配置,例如同时指定同步和异步实现,也可以使用 StructuredTool.from_function 类方法。原创 2025-03-17 15:22:03 · 1249 阅读 · 0 评论 -
【LangChain】理论及应用实战(4):Memory
待更新…]原创 2025-03-13 22:18:40 · 1426 阅读 · 0 评论 -
【大模型】知识蒸馏(knowledge distillation)算法详解
虽然基于特征的知识转移为学生模型的学习提供了更多信息,但由于学生模型和教师模型的结构不一定相同,如何从教师模型中选择哪一层特征激活(提示层),从学生模型中选择哪一层(引导层)模仿教师模型的特征激活,是一个需要探究的问题。作者提出了一种称为知识蒸馏的策略,它学习的是教师模型(结构较为复杂的模型)的输出分布(logits),这种分布信息比原始的(0-1)label具有更加丰富的信息,能够让学生模型(架构较为简单的模型)取得更好的效果。上面一种方法学习目标非常直接,学生模型直接学习教师模型的最后预测结果。原创 2025-03-12 09:09:00 · 2793 阅读 · 0 评论 -
【LangChain】理论及应用实战(3):Chain
当 langchain-hub 中的prompt 及 chain 不满足我们的需求时,我们也可以构建自己的chain。下面我们看一个具体示例,通过自定义链实现维基百科形式的文章。(1)自定义链"""开发一个wiki文章生成器"""@property"""链的类型"""@property"""将返回prompt所需要的所有键"""@property"""将始终返回text键"""def _call(self,"""复写call方法,运行链的入口函数"""(2)调用链。原创 2025-03-11 22:44:01 · 1381 阅读 · 0 评论 -
【LangChain】理论及应用实战(2):Loader, Document, Embedding
import os# 加载文档# (1) 总结文档# (2) 翻译文档# (3) 精炼文档,仅保留与主题相关的内容。原创 2025-03-09 21:21:19 · 914 阅读 · 0 评论 -
【LangChain】理论及应用实战(1):Prompt, LLM, Output Parsers
你是一个非常有经验的程序员,现在给你函数名称,你会按照如下格式输出这段代码的名称、源代码、中文解释。函数名称:{function_name}源代码:代码解释:"""# 自定义模版class,继承StringPromptTemplatesource_code = get_source_code(kwargs["function_name"]) # 获取源代码print(pm)text = '你是一个非常有经验的程序员,现在给你函数名称,你会按照如下格式输出这段代码的名称、源代码、中文解释。原创 2025-03-09 19:31:18 · 1052 阅读 · 0 评论 -
【大模型】图解混合专家模型 (Mixed Expert Models, MoEs)
混合专家(Mixture of Experts,简称 MoE)模型,是一种利用多个不同的子模型(或“专家”)来提升大语言模型(LLM)质量的技术。专家(Experts): 模型中的每个专家都是一个独立的神经网络,专门处理输入数据的特定子集或特定任务。例如,在自然语言处理任务中,一个专家可能专注于处理与语言语法相关的内容,而另一个专家可能专注于语义理解。路由或者门控网络(Gating Network): 门控网络的作用是决定每个输入样本应该由哪个专家或哪些专家来处理。转载 2025-03-04 16:02:01 · 411 阅读 · 0 评论 -
【大模型】大模型推理部署工具之vLLM的核心技术-PagedAttention(2)
如果不这样做的话,各个请求间相互争夺gpu资源,最终将导致没有任何一个请求能完成推理任务。等到先来的请求做完了推理,vLLM调度器认为gpu上有足够的空间了,就能恢复那些被中断的请求的执行了。转载 2025-03-02 17:53:52 · 513 阅读 · 0 评论 -
【大模型】大模型推理部署工具之vLLM的使用(1)
首先介绍一下vLLM是什么?vLLM 是一个快速且易用的用于 LLM 推理和服务的库。vLLM最初由UC Berkeley的Sky Computing Lab 开发,现已发展成为一个由学术界和工业界共同贡献的社区驱动项目。最先进的服务吞吐量使用对注意力键和值内存进行高效管理对传入请求进行连续批处理使用 CUDA/HIP 图进行快速模型执行量化:GPTQ、AWQ、INT4、INT8 和 FP8优化的 CUDA 内核,包括与 FlashAttention 和 FlashInfer 的集成。原创 2025-03-02 17:53:10 · 2232 阅读 · 0 评论 -
浮点数格式:FP16, BF16, FP32之间的区别与LLM显存占用
浮点数是一种用二进制表示的实数,它由三个部分组成:sign(符号位)、exponent(指数位)和fraction(小数位)。不同的浮点数格式有不同的位数分配给这三个部分,从而影响了它们能表示的数值范围和精度。转载 2025-03-01 17:32:02 · 8262 阅读 · 0 评论 -
【大模型】DeepSeek核心技术之MLA (Multi-head Latent Attention)
在讲解MLA之前,需要大家对几个基础的概念(KV Cache, Grouped-Query Attention (GQA), Multi-Query Attention (MQA),RoPE)有所了解,这些有助于理解MLA是怎么工作的,为什么需要这么做。原创 2025-03-01 15:50:19 · 2267 阅读 · 0 评论 -
【大模型】MHA,MQA,GQA及KV Cache详解
在自回归模型中(Autoregressive Models),模型会逐个生成文本的每个token,这个过程可能比较慢,因为模型一次只能生成一个token,而且每次新的预测都依赖于之前的上下文。这意味着,要预测第1000个token,你需要用到前999个token的信息,这通常涉及到对这些token的表示进行一系列矩阵乘法运算。而要预测第1001个token,你不仅需要前999个token的信息,还要加上第1000个token的信息。原创 2025-03-01 11:07:29 · 1841 阅读 · 0 评论 -
【大模型】基于llama.cpp实现大模型格式转换、量化、推理
llama.cpp是一个开源项目,专门为在本地CPU上部署量化模型而设计。它提供了一种简单而高效的方法,将训练好的量化模型转换为可在CPU上运行的低配推理版本。原创 2025-02-28 16:02:24 · 1870 阅读 · 0 评论 -
【大模型】旋转位置编码(Rotary Position Embedding,RoPE)
旋转位置编码(Rotary Position Embedding,RoPE)是论文 Roformer: Enhanced Transformer With Rotray Position Embedding 提出的一种能够将相对位置信息依赖集成到 self-attention 中并提升 transformer 架构性能的位置编码方式。而目前很火的 LLaMA、GLM 模型也是采用该位置编码方式。备注:什么是大模型外推性?外推性是指大模型在训练时和预测时的输入长度不一致,导致模型的泛化能力下降的问题。转载 2025-02-27 16:10:28 · 928 阅读 · 0 评论 -
【大模型】Transformers基础组件 - Tokenizer
Hugging Face 的 Transformers 库是目前最流行和功能最强大的自然语言处理(NLP)库之一,提供了对大量预训练模型的访问和支持。这些模型涵盖了文本生成、文本分类、命名实体识别、机器翻译等多种任务。Hugging Face 的 Transformers 库提供了 Tokenizer(分词器)、Model(模型)、Pipeline(流水线)等模块,便于灵活使用。本篇博客我们主要介绍基于Hugging Face 的 Transformers 库进行及。原创 2025-02-18 21:26:42 · 1993 阅读 · 0 评论 -
【大模型】DeepSeek-V3 Technical Report 关键技术解读
首先给出Report的摘要部分:我们提出了DeepSeek-V3,这是一个强大的混合专家(MoE)语言模型,模型总参数为671B,每个令牌激活37B。为了实现高效的推理和经济高效的训练,DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构,这些架构在DeepSeek-V2中得到了充分的验证。此外,DeepSeek-V3开创了一种用于负载平衡的辅助无损耗策略 (auxiliary-loss-free strategy for load balancing)原创 2025-02-16 18:28:07 · 1745 阅读 · 0 评论 -
【大模型】基于LlamaIndex实现大模型RAG
LlamaIndex是一个LLM文本增强的框架,其中包含完整的RAG解决方案。项目在2023年1月29日发布了第一个版本,当时叫做“GPT Index v0.2.17” ,项目作者Jerry Liu。原创 2025-02-07 20:53:49 · 2122 阅读 · 0 评论 -
【大模型】Ollama+AnythingLLM搭建RAG大模型私有知识库
AnythingLLM是由Mintplex Labs Inc.开发的一个全栈应用程序,是一款高效、可定制、开源的企业级文档聊天机器人解决方案。AnythingLLM能够将任何文档、资源或内容片段转化为大语言模型在聊天中可以利用的相关上下文。AnythingLLM支持几乎所有的主流大模型和多种文档类型,可定制化,而且安装和设置简单。目前适用于MacOS、Linux和Windows操作系统,也可以使用Docker安装。官方已经做好了各个版本的应用,直接下载对应版本,像正常软件一样安装启动即可。1.核心特性。原创 2025-01-23 15:26:50 · 3808 阅读 · 0 评论 -
【大模型】检索增强生成:从RAG、GraphRAG到LightGAG
自 ChatGPT 发布以来,大型语言模型(Large Language Model,LLM,大模型)得到了飞速发展,它在处理复杂任务、增强自然语言理解和生成类人文本等方面的能力让人惊叹,几乎各行各业均可从中获益。为了解决以上通用大模型问题,方案就应运而生。原创 2025-01-23 11:21:42 · 1341 阅读 · 0 评论 -
【大模型】基于LLaMA-Factory的模型高效微调(2)
我们通过量化技术将高精度表示的预训练模型转换为低精度的模型,从而在避免过多损失模型性能的情况下减少显存占用并加速推理,我们希望低精度数据类型在有限的表示范围内尽可能地接近高精度数据类型的表示,因此我们需要指定量化位数。当我们基于预训练模型训练好 LoRA 适配器后,我们不希望在每次推理的时候分别加载预训练模型和 LoRA 适配器,因此我们需要将预训练模型和 LoRA 适配器合并导出成一个模型,并根据需要选择是否量化。此外,您还可以通过如下命令来获得模型的 BLEU 和 ROUGE 分数以评价模型生成质量。原创 2025-01-21 14:42:58 · 2146 阅读 · 2 评论 -
【大模型】基于Ollama+GraphRAG本地部署大模型,构建知识图谱,实现RAG查询
1、修改settings.yaml文件中实体类别如下位置:2、手动调整prompt自定义实体【LLM大模型】GraphRAG手调Prompt提取自定义实体。原创 2025-01-17 15:54:39 · 4975 阅读 · 7 评论 -
【NLP】语言模型的发展历程 (1)
N-gram模型是一种基于统计语言模型的文本分析算法,它用于预测文本中下一个词出现的概率,基于前面出现的n-1个词的序列。这里的n代表序列中元素的数量,因此称为N-gram。Unigram:N=1,每个单词的出现概率独立计算,不考虑上下文。Bigram:N=2,基于前一个单词预测当前单词的联合概率模型。Trigram:N=3,考虑前两个单词来预测当前单词的联合概率模型,更复杂但可能更准确。原创 2025-01-12 17:24:50 · 1471 阅读 · 0 评论 -
【NLP】ELMO、GPT、BERT、BART模型解读及对比分析
GPT(Generative Pre-trained Transformer)是由 OpenAI 开发的一类生成式预训练语言模型。基于 Transformer 架构,GPT 模型具备强大的自然语言处理能力,能够通过自回归方式生成文本。自首次推出以来,GPT 系列模型在多个领域的文本生成任务中表现出色,并在语言建模、文本生成、对话系统等任务中取得了显著的成果。GPT 系列模型的核心优势在于其预训练-微调(Pre-training & Fine-tuning)的训练策略。原创 2025-01-12 17:19:27 · 1918 阅读 · 0 评论 -
NLP中常见的分词算法(BPE、WordPiece、Unigram、SentencePiece)
从上面的公式,很容易发现,似然值的变化就是两个子词之间的互信息。简而言之,WordPiece每次选择合并的两个子词,他们具有最大的互信息值,也就是两子词在语言模型上具有较强的关联性,它们经常在语料中以相邻方式同时出现。在训练任务中,如果能对不同的 Subword 进行训练的话,将增加模型的健壮性,能够容忍更多的噪声,而 BPE 的贪心算法无法对随机分布进行学习。我们将一个个的 token(可以理解为小片段)表示向量,我们分词的目的就是尽可能的让这些向量蕴含更多有用的信息,然后把这些向量输入到算法模型中。原创 2025-01-09 11:02:17 · 5122 阅读 · 0 评论