预训练大模型【技术方向】
文章平均质量分 94
预训练大模型
博士僧小星
一个默默无闻的技术博主
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
人工智能|大模型——训练——大模型微调全栈指南:从Transformer架构、10+种PEFT原理、流程与实战(全网最详细)
本文是一份面向工程落地的大模型参数高效微调(PEFT)深度技术指南,严格依据 8 篇权威技术文档(知乎专栏、CSDN 博客、阿里云文章、AI全书等)的原始事实提炼而成。全文覆盖:① 大模型“预训练→微调”两阶段范式本质;② Transformer 架构中各 PEFT 方法的作用位置与数学原理;③ LoRA、QLoRA、Adapter Tuning、Prefix Tuning、Prompt Tuning、P-Tuning v1、P-Tuning v2 共 7 种主流方法的完整技术解构(含公式、结构图示逻辑、参原创 2026-04-10 11:31:15 · 461 阅读 · 0 评论 -
人工智能|大模型——记忆——大模型 Memory 技术全景解析:Form–Function–Dynamics 三维框架 × 五大前沿范式 × 全生命周期管理与可信挑战
本文系统梳理了大模型记忆技术的最新研究进展,基于Form-Function-Dynamics三维框架,对记忆系统的本质定义、分类体系、核心范式及实现方法进行了全面解析。文章首先澄清了记忆与上下文窗口、RAG、工具调用的本质区别,提出记忆是大模型智能体的核心能力单元。随后详细阐述了记忆在形式(Token/Parametric/Latent)、功能(Factual/Experiential/Working)和动态(Formation/Evolution/Retrieval)三个维度的正交分类体系,并结合TIM、原创 2026-04-08 17:10:17 · 437 阅读 · 0 评论 -
人工智能|大模型——模型——混合专家网络架构详解(MoE)!
MoE,全称为Mixed Expert Models,混合专家模型,简单理解就是将多个专家模型混合起来形成一个新的模型。在理解MOE之前,有两个思想前提,可以帮助我们更容易地理解MOE架构。一是在现实生活中,如果有一个包括了多个领域知识的复杂问题,我们该使用什么样的方法来解决呢?最简单的办法就是先拆分任务到各领域,然后把各个领域的专家集合到一起来攻克这个任务,最后再汇总结论。这个思想可以追溯到集成学习,MoE和集成学习的思想异曲同工,都是集成了多个模型的方法,区别在于集成学习不需要将任务分解为子任务。原创 2024-12-19 15:24:30 · 2096 阅读 · 0 评论 -
人工智能|大模型——蒸馏——大模型蒸馏详解(定义/原理/关键技术/落地)
摘要 大模型蒸馏(Model Distillation)是一种将大型教师模型(如BERT、GPT-4)的知识高效迁移至轻量级学生模型(如DistilBERT)的关键技术,旨在解决大模型部署中的算力与延迟问题。其核心流程包括教师模型训练、软标签生成(含温度参数T调控)、学生模型联合训练及评估优化。关键技术涉及KL散度损失、温度参数调节、输出层与中间层双路径知识转移。工业实践表明,蒸馏模型如DistilBERT可实现推理速度提升2.5倍,而DeepSeek-R1-Distill在数学推理任务上性能媲美原模型。该原创 2026-04-01 17:09:45 · 520 阅读 · 0 评论 -
人工智能|大模型——应用——降低OpenClaw Token成本的四大策略
初期与资源层:优先领取阿里云百炼或国家超算互联网的免费额度,奠定低成本基础。框架与配置层:应用一键优化脚本,开启上下文修剪、缓存和压缩功能。业务逻辑层:对重复、固定的任务,使用进行封装,减少大模型的“思考”负担。知识检索层:对于涉及大量文档或历史记忆的应用,集成QMD实现离线检索,从根本上砍掉检索环节的Token消耗。通过上述多管齐下的方式,可以在不显著影响智能体能力的前提下,实现Token消耗的大幅降低,使OpenClaw的长期运行和商业化应用更加经济可行。原创 2026-03-30 16:17:28 · 438 阅读 · 0 评论 -
人工智能|大模型——部署——单张消费级显卡提升私有化部署大模型推理效率的 7 种方法!
本文介绍了在消费级显卡上提升大模型推理效率的7种方法:1)模型量化降低显存占用;2)采用vLLM框架的PagedAttention技术;3)连续批处理与动态调度;4)多实例并行推理;5)FlashAttention2算子加速;6)异步I/O与多线程处理;7)投机采样技术。这些方法可组合使用,在单张24GB显卡上实现数倍吞吐量提升,支持私有化部署大模型的高效运行。原创 2026-03-27 10:45:01 · 406 阅读 · 0 评论 -
人工智能|大模型——应用——利用大模型自建Vibe Coding上下文超限的一点思考
问题类型解决方案上下文超限降低 max_tokens 或压缩 input_tokens输入太大代码切片、摘要、RAG 检索参数配置不当动态计算 safe_max_tokens工具设计缺陷引入上下文管理系统、分层推理、用户引导“不要试图让大模型一次看完整个世界,而要教会它如何一步步探索。优秀的 AI 编程助手不是靠堆砌上下文取胜,而是靠精准的上下文选择 + 高效的推理路径规划。你可以借鉴 Cursor 的设计理念,但在实现上可以根据自己的技术栈灵活调整。原创 2026-03-25 21:55:48 · 639 阅读 · 0 评论 -
人工智能|大模型——模型——Token全网最详细讲解(国家数据局局长刘烈宏将其称为“词元”)
Token(词元)是自然语言处理(NLP)与大语言模型(LLM)领域的核心基础单元,是将连续的自然语言文本映射为离散符号体系的核心载体 —— 其本质是人类语言与模型可处理数学空间的 “翻译层”,也是当前生成式 AI 技术体系、工程实现与商业生态的底层锚点。随着 Transformer 架构的普及与大模型技术的爆发,Token 的角色已从早期 NLP 的预处理中间单元,升级为大模型语义建模、推理计算与商业化计价的核心对象。原创 2026-03-25 17:39:35 · 1898 阅读 · 0 评论 -
人工智能|大模型——模型——大模型主流架构Encoder-Only、Decoder-Only、Encoder-Decoder
本文分析了三种主流的大语言模型架构:1. Encoder-Only架构(如BERT、GLM4),擅长文本分类等单向任务,能深入理解语义但无法生成文本;2. Decoder-Only架构(如GPT、LLaMA),专长文本生成任务,具有创造性写作优势但需大量训练数据;3. Encoder-Decoder架构(如T5、盘古NLP),适用于机器翻译等序列转换任务,兼具理解与生成能力但计算复杂度高。文章详细阐述了各类架构的特点、适用场景及代表模型,包括国内外典型应用案例,如GLM4在Prompt跟随方面接近GPT4水原创 2026-03-24 10:37:28 · 463 阅读 · 0 评论 -
人工智能|大模型——部署——RTX 5090上通过vLLM部署0.6B模型显存占用率高?真相在这
在深度学习与大模型部署领域,硬件资源的利用率往往决定了项目的成败。近期,在拥有一张性能强悍的NVIDIA RTX 5090显卡的环境下,利用WSL2虚拟机中的Ubuntu系统及Python虚拟环境部署vLLM框架以运行0.6B参数量的Qwen模型时,遇到了显存占用瞬间"爆满"的极端情况。这一现象看似反常——小模型配大卡理应绰绰有余,实则涉及vLLM的内存管理机制、KV Cache预分配策略以及WSL2的资源调度特性。本文将结合技术原理,深度剖析显存溢出的根本原因,并提供精准的参数调优代码与解决方案。原创 2026-03-23 19:14:02 · 484 阅读 · 0 评论 -
人工智能|大模型——部署——GLM 4.7(FP 8)私有化部署指南
本文详细介绍了在内网环境中私有化部署大语言模型GLM-4.7的全流程。主要内容包括:1)通过ModelScope获取并传输模型文件;2)在H20服务器上安装/升级GPU驱动和CUDA环境;3)使用vLLM框架部署模型,重点说明公网环境打包迁移到内网的避坑方案;4)提供详细的命令参数说明和常见问题解决方法。该方案适用于对数据安全要求高的政企场景,确保模型、数据和算力完全自主可控,同时解决内网环境部署的技术难点。原创 2026-03-19 17:28:43 · 541 阅读 · 0 评论 -
人工智能|大模型—— 框架 ——一文详解MCP(从原理到实践)
MCP起源于2024年11月25日Anthropic发布的文章:Introducing the Model Context Protocol。MCP(Model Context Protocol,模型上下文协议)定义了应用程序和 AI 模型之间交换上下文信息的方式。这使得开发者能够以一致的方式将各种数据源、工具和功能连接到 AI 模型(一个中间协议层),就像 USB-C 让不同设备能够通过相同的接口连接一样。MCP的目标是创建一个通用标准,使AI应用程序的开发和集成变得更加简单和统一。原创 2026-02-11 16:38:27 · 1315 阅读 · 0 评论 -
人工智能|大模型—— 框架 ——RAG从理论到实战
在当今人工智能技术飞速发展的时代,大模型已经成为各行各业关注的焦点。然而,如何将这些通用的大模型应用到我们的具体业务场景中,如何解决大模型在实际应用中的种种局限,这些都是我们需要深入思考的问题。RAG,也就是检索增强生成技术,正是解决这些问题的关键方案之一。 在接下来的分享中,我会从理论基础出发,逐步深入到技术细节和实践案例,帮助大家全面理解RAG,并掌握从0-1搭建RAG系统的核心流程及方法,以为大家在实际工作中应用这一技术提供支持。原创 2026-02-09 18:03:37 · 1170 阅读 · 0 评论 -
人工智能|大模型—— 开发 ——Agent Skills设计详解
AgentSkills是一种将可复用的AI协作流程封装为标准化任务的机制,通过Markdown文件定义任务名称、描述和执行步骤。OpenCode支持项目本地和全局两种Skill配置路径,采用渐进式三层加载机制(元数据、指令、资源)优化Token消耗。Skill包含核心SKILL.md文件和可选资源(scripts、references、assets),其创建可借助skill-creator元技能完成。这种设计通过模块化、标准化和按需加载,既提升了AI协作效率,又降低了资源消耗,实现了复杂工作流程的确定性执行原创 2026-01-30 14:48:25 · 4340 阅读 · 0 评论 -
人工智能|大模型——应用——详解ClawdBot(Moltbot)
最近,一个名为 ClawdBot 的项目在技术圈引起了广泛的讨论。许多人称其为“真正能做事的 AI”、“个人 AI 助理的未来形态”。它似乎不仅仅是一个聊天机器人,而是一个能接入我们日常生活、实际操作电脑的强大工具。那么,ClawdBot 究竟是什么?原创 2026-01-29 17:48:13 · 1867 阅读 · 0 评论 -
人工智能|大模型——部署——vLLM专家并行支持:MoE模型的高效部署方案
vLLM框架针对MoE模型部署提出创新解决方案,通过分组TopK路由算法、令牌重排对齐机制和混合精度专家计算三大核心技术,有效解决了计算资源碎片化、跨设备通信瓶颈和内存管理复杂性等核心挑战。该系统支持动态专家选择策略和多模态处理,在70B参数的MoE模型上实现75%以上的GPU利用率,显存占用降低40%,吞吐量较传统方案提升3倍。未来将发展自适应专家并行和异构专家部署等功能,为万亿参数模型提供高效推理支持。最佳实践包括模型权重优化、系统参数配置和性能指标监控等关键步骤。原创 2026-01-28 15:26:08 · 1002 阅读 · 0 评论 -
人工智能|大模型 —— 开发 —— opencode与agent skills的安装与使用
本文介绍了AI编程代理OpenCode的安装配置与使用指南。主要内容包括:1) 常用Skill下载源和配置方法(手动下载/市场安装);2) OpenCode的安装方式(一键脚本/包管理器/桌面应用);3) 基础配置步骤(连接AI模型、项目初始化);4) 基本用法(切换代理、引用文件提问)。OpenCode作为开源AI编程助手,支持多模型接入,提供终端和图形界面两种操作方式,能帮助开发者更高效地理解和修改代码。原创 2026-01-27 14:35:01 · 5154 阅读 · 0 评论 -
人工智能|大模型 —— 部署 ——Ollama 安装部署教程,一键搭建本地大模型
Ollama是一款支持在Windows、Linux和MacOS上本地运行大语言模型的工具,提供1700+预训练模型和自定义模型功能。安装方式包括直接下载安装包(Windows/Mac)或脚本/二进制安装(Linux)。用户可通过命令行管理模型,支持参数调整和多GPU加速。文章详细介绍了各平台安装步骤、环境变量配置、模型路径修改方法,以及如何从Huggingface导入模型。最新版本0.3.13新增支持直接从Huggingface Hub拉取GGUF量化模型的功能,并提供了具体操作命令示例。原创 2025-12-05 16:48:27 · 1259 阅读 · 0 评论 -
人工智能|大模型——量化——Ollama模型量化参数设置全解析如何避免性能下降与显存溢出
在当今大语言模型(LLM)快速发展的时代,Ollama作为一款优秀的本地模型运行框架,为用户提供了便捷的模型部署和运行能力。然而,随着模型规模的不断增大,如何在有限的硬件资源下高效运行这些模型成为了一个重要问题。模型量化技术应运而生,它通过降低模型权重的数值精度来减少内存占用和提升推理速度。但量化并非简单的参数调整,不当的设置可能导致严重的性能下降甚至显存溢出问题。原创 2026-01-22 09:53:39 · 1747 阅读 · 0 评论 -
人工智能|大模型 —— 量化 —— 一文搞懂大模型量化技术:GGUF、GPTQ、AWQ
本文系统探讨了大模型量化技术的理论基础与实现方法。首先介绍了对称量化(absmax方法)和非对称量化(零点量化)的基本原理,分析了量化误差的产生机制。随后重点讨论了GGUF分组量化方法,通过具体示例展示了4位量化过程。在优化方法方面,详细阐述了GPTQ的后训练量化技术,包括其Hessian-based误差补偿机制和LazyBatch-Updates加速策略。最后介绍了AWQ方法,该方法通过激活感知选择1%关键权重进行保护,结合缩放因子优化显著降低了量化误差。实验结果表明,AWQ与GPTQ相结合能进一步提升量原创 2026-01-21 15:13:38 · 851 阅读 · 0 评论 -
人工智能|预训练大模型——思维链详解[Chain of Thought, CoT]
Chain-of-Thought(CoT)是一种改进的Prompt技术,目的在于提升大模型LLMs在复杂推理任务上的表现,对于复杂问题尤其是复杂的数学题大模型很难直接给出正确答案。如算术推理(arithmetic reasoning)、常识推理(commonsense reasoning)、符号推理(symbolic reasoning)。COT通过要求模型在输出最终答案之前,显式输出中间逐步的推理步骤这一方法来增强大模型的算数、常识和推理能力。简单,但有效。2022 年,在 Google 发布的论文。原创 2024-12-17 16:46:31 · 5472 阅读 · 0 评论 -
人工智能|预训练大模型——常用大模型的原理介绍
这些模型使用表中的超参数构建。这三个模型使用相同的数据和词汇表进行相同的训练(除了批量大小),feed-forward size dff始终为dmodel的4倍,注意力头大小始终为256。在训练期间,数据集不按其大小进行采样,而是质量较高的数据集采样更频繁,因此CommonCrawl和Books2数据集在训练期间采样不到一次,但其他数据集采样2-3次。虽然具体的训练细节没有公布,但一个有意思的事情是,在GPT4中的技术报告中,上述表格中的实验证明RLHF基本不起作用,甚至有些情况会降低效果。原创 2024-11-15 16:45:25 · 1614 阅读 · 0 评论 -
人工智能|预训练大模型——基于Ollama+AnythingLLM搭建本地私有知识库系统
AnythingLLM 是 Mintplex Labs 开发的一款可以与任何内容聊天的私人ChatGPT,是高效、可定制、开源的企业级文档聊天机器人解决方案。它能够将任何文档、资源或内容片段转化为大语言模型(LLM)在聊天中可以利用的相关上下文。AnythingLLM 支持多种文档类型(PDF、TXT、DOCX等),具有对话和查询两种聊天模式。原创 2024-09-26 22:12:38 · 4542 阅读 · 0 评论 -
人工智能|预训练大模型——全球医疗大模型
谷歌和DeepMind的科研人员在《自然》杂志上发表了一项研究,根据其研究结果,一组临床医生对谷歌和DeepMind团队的医疗大模型Med-PaLM回答的评分高达92.6%,与现实中人类临床医生的水平(92.9%)相当。原创 2024-09-17 15:58:32 · 3868 阅读 · 0 评论
分享