小爷毛毛（卓寿杰）-CSDN博客

原创《大模型AIGC系列课程》大纲

第1章：初识大语言模型（LLM）第3章：LLM推理与训练。第2章：LLM与智能体。

2023-09-05 11:46:30 3525 1

原创检索增强的 NLP2SQL 生成

组件功能在 NLP2SQL 中的应用检索器根据输入查找相关上下文从知识库中查找相关DDL、文档和SQL示例生成器基于上下文生成响应根据检索结果生成准确SQL语句知识库存储结构化信息包含数据库模式、业务术语和查询示例# 转换消息格式# 调用自定义API。

2025-06-07 10:51:53 31

原创检索增强的大模型工具调用：语义驱动的精准API选择技术

在大型语言模型（LLM）应用中，工具调用能力已成为连接AI与真实世界的桥梁。然而，传统方法存在工具选择不准确、参数匹配错误等问题。本文将深入探讨检索增强工具选择器（Retrieval-Augmented Tool Selector）如何通过语义嵌入技术解决这些挑战。

2025-06-03 17:12:08 784

Qwen3性能评估框架概览 Qwen3采用多维度评估体系，涵盖基础能力、专业领域、多语言支持、指令执行、安全性和实际应用六大维度。评估方法结合标准化基准测试（如MMLU、GSM8K）、自动化指标分析和人类专家评估，并与主流模型（Llama-3、GPT-4等）进行横向对比。该框架通过量化指标和质性分析，全面衡量模型的语言理解、专业问题解决及安全合规等核心能力，为AI模型评估提供系统化方法论。评估结果展现Qwen3在语言处理和专业任务中的综合性能表现。

2025-05-26 13:53:09 53

原创深入解读Qwen3技术报告（五）：后训练对齐

摘要：本章解析了Qwen3大模型的后训练对齐技术，通过多阶段框架（监督微调、偏好对齐、安全对齐）实现三大目标：有用性、安全性和诚实性。监督微调阶段使用百万级高质量指令-回答对数据，覆盖119种语言和多样化任务类型；偏好对齐通过强化学习优化人类偏好；安全对齐专门训练模型拒绝有害请求。代码示例展示了分阶段对齐流程，强调各环节的协同作用与目标平衡（如安全性与有用性的权衡），最终将基础模型转化为符合人类价值观的AI助手。

2025-05-26 11:04:29 206

原创深入解读Qwen3技术报告（四）：Qwen3的预训练之旅

Qwen3的预训练过程通过大规模、多样化的数据构建和优化，显著提升了模型的基础能力和知识储备。与Qwen2.5相比，Qwen3的预训练数据规模翻倍，支持语言数量增加至119种，领域覆盖更加广泛，包括编程、STEM、推理任务、书籍、多语言文本和合成数据等。团队创新性地利用多模态模型从PDF文档中提取高质量文本，并通过合成数据生成策略，利用现有模型生成特定领域的内容，进一步丰富了数据来源。这些策略为Qwen3提供了坚实的知识基础和语言理解能力，确保了其卓越的性能表现。

2025-05-23 13:15:45 70

原创深入解读Qwen3技术报告（三）：深入剖析Qwen3模型架构

本文深入剖析了Qwen3模型的架构设计，重点介绍了其基础组件和创新点。Qwen3基于Transformer解码器，采用了层前归一化、分组查询注意力（GQA）等改进技术，以提升性能和计算效率。GQA通过让多个查询头共享同一组键值头，减少了参数量和计算量，同时保持了模型的表现力。此外，Qwen3的架构设计还考虑了扩展性和训练稳定性，使其在大型语言模型中具有显著优势。通过这些技术细节的解析，读者可以更好地理解Qwen3强大能力背后的架构秘密。

2025-05-22 16:37:06 531

原创深入解读Qwen3技术报告（二）：Qwen3模型系列全景

Qwen3模型系列是一个从微型到巨型的AI家族，涵盖了从0.6B到235B参数的全系列模型，分为密集模型和混合专家模型（MoE）两大类。密集模型系列包括从Qwen3-0.6B到Qwen3-32B的多个模型，适用于从移动设备到高性能服务器的各种场景。MoE模型系列则通过稀疏激活的架构，在保持计算量稳定的同时大幅增加参数量，适用于需要高性能但资源有限的场景。Qwen3系列的核心技术创新包括思考模式与非思考模式的统一框架、思考预算机制以及高效的MoE架构，这些创新使得Qwen3能够在不同场景下灵活应对复杂任务，提

2025-05-22 13:17:33 44

原创深入解读 Qwen3 技术报告（一）：引言

本文详细解析了Qwen3的核心架构、预训练策略、后训练优化体系及性能评估与工程实践。Qwen3采用混合专家模型（MoE）和优化后的注意力机制，通过三阶段预训练策略构建大规模多语言语料库，并利用长上下文训练技术扩展模型能力。后训练阶段引入双模融合机制和强化学习策略，进一步提升模型性能。评估体系涵盖通用知识、数学推理、代码生成等多维度指标，工程实践中通过动态批处理和量化部署优化推理效率。Qwen3在多项任务中表现出色，尤其在多语言能力和代码生成方面具有显著优势。

2025-05-20 15:26:11 130

原创【Dify(v1.x) 核心源码深入解析】moderation 模块

Dify 的 moderation 模块是一套功能强大的内容审核系统，旨在对用户输入和模型输出进行敏感内容检测与处理，以确保内容的安全性和合规性。它提供了灵活多样的审核策略，可帮助开发者根据实际需求定制审核流程，广泛应用于各种需要内容管控的应用场景，如聊天机器人、内容生成平台等。

2025-05-19 13:48:04 68

原创【Dify(v1.x) 核心源码深入解析】model_runtime 模块

Dify 的 model_runtime 模块为人工智能应用开发提供了高效的模型管理与调用解决方案。该模块通过三层架构设计（工厂方法层、供应商层和模型层），实现了模型调用的解耦与扩展性，支持多种模型类型，如大语言模型（LLM）、文本嵌入模型、语音转文本模型等。核心功能包括凭据验证机制和模型调用流程，确保安全性和灵活性。凭据验证分为供应商和模型两级，通过配置规则进行校验；模型调用流程则通过分层设计实现从应用层到模型层的无缝衔接。该模块的设计使得开发者能够轻松扩展支持的模型类型和供应商，同时保持代码的可维护性和

2025-05-14 10:22:02 86

原创【Dify(v1.x) 核心源码深入解析】llm_generator 和 memory 模块

本篇专栏深入探讨Dify平台的核心模块——llm_generator和memory，解析其技术架构与实现原理。memory模块负责管理对话历史，通过TokenBufferMemory类限制消息数量和tokens数，确保对话连贯性。其核心方法get_history_prompt_messages从数据库中提取消息，转换为提示消息格式，并根据tokens限制进行修剪。llm_generator模块则负责与语言模型交互，生成智能对话内容。通过对这两个模块的详细分析，读者将全面理解Dify平台的智能对话与记忆管理机

2025-05-12 13:16:26 87

原创【Dify(v1.x) 核心源码深入解析】Helper 模块

Dify 是一个功能强大的 AI 应用开发框架，其 helper 模块为开发者提供了丰富的工具函数和类，以简化开发过程并提高代码的可维护性和可扩展性。本文将深入剖析 Dify 的 helper 模块，涵盖从基础功能到高级实现的各个方面，通过详细的代码解读和示例，帮助读者全面掌握这些模块的使用方法。Dify 的 helper 模块主要包括以下几个方面：URL 签名模块主要用于生成带有签名的 URL，以确保 URL 的安全性和有效性。它通过使用 HMAC-SHA256 算法对特定数据进行签名，并将签名结果附加到

2025-05-07 14:14:26 100

原创【Dify(v1.x) 核心源码深入解析】Code Executor 模块

Dify 的 Code Executor 模块是一个功能强大且灵活的工具，它支持多种编程语言，提供了安全的代码执行环境，并通过模板转换器和代码提供者简化了代码执行的流程。本文详细介绍了 Code Executor 模块的各个核心组件及其协作方式，希望能帮助读者更好地理解和使用这一模块。

2025-04-30 13:55:11 137

原创【Dify(v1.x) 核心源码深入解析】File 模块

文件模型（File Model）定义了文件的核心属性，如文件类型、传输方法、相关标识符等，是整个文件处理流程的数据基础。文件解析器（UploadFileParser）负责解析上传的文件，根据配置决定以何种方式（URL 或 Base64）提供图像数据。工具文件解析器（ToolFileParser）专注于工具文件的管理，提供工具文件管理器的获取接口。签名验证与生成（helpers.py）包含文件 URL 签名的生成与验证逻辑，确保文件访问的安全性。文件管理器（file_manager.py）

2025-04-30 13:32:00 301

原创【Dify(v1.x) 核心源码深入解析】errors、extension 和 external_data_tool 模块

通过对 Dify 中 errors、extension 和 external_data_tool 模块的深入剖析，我们不仅了解了其各个模块内部的精细结构和工作原理，还掌握了它们之间的关联与协同机制。这些模块为 Dify 应用提供了强大的错误处理、灵活的扩展能力和便捷的外部数据集成支持，是构建现代化、高性能软件系统的重要基石。希望本文的讲解能够帮助您更好地理解和运用 Dify，激发您在软件开发领域的更多创意和实践。

2025-04-24 13:27:58 142

原创【Dify(v1.x) 核心源码深入解析】callback handler 和 entities 模块

Callback handler 是 Dify 中用于处理工具调用、代理行为和流程控制的核心组件。捕获工具调用的开始、结束和错误事件。记录工具的输入、输出和执行时间。提供调试信息和日志输出。支持扩展功能，如追踪工具调用的上下文和结果。Entities 模块定义了 Dify 中的各种数据结构和实体类，用于描述模型、提供者、工具和配置等。这些类是 Dify 的核心数据模型，提供了统一的接口和结构。

2025-04-23 14:28:22 70

原创【Dify(v1.x) 核心源码深入解析】App 模块：Entities、Features 和 Task Pipeline

Dify 是一个功能强大的 AI 应用开发框架，它通过模块化设计和灵活的任务处理机制，帮助开发者快速构建智能应用。在这篇文章中，我们将深入解析 Dify 的三个核心模块：Entities（实体）、Features（功能）和 Task Pipeline（任务管道）。通过详细的代码解读和示例，帮助你全面理解 Dify 的架构设计和实现细节。Entities 是 Dify 中用于表示核心数据结构的模块。它定义了各种实体类，用于封装应用生成、工作流、消息等数据。

2025-04-23 13:27:30 117

原创【Dify(v1.x) 核心源码深入解析】Apps 模块

Dify 的 Apps 模块通过工作流和任务管道实现了复杂业务逻辑的处理。它通过事件驱动的方式协调任务的执行，支持流式输出和阻塞模式。通过合理的数据库连接管理和任务优化，可以确保系统的高性能和高可用性。希望本文能帮助你深入理解 Dify 的 Apps 模块，并在实际项目中灵活应用。如果你有任何疑问或建议，欢迎随时与我们交流！

2025-04-22 17:25:57 403

原创问题修复记录：Dify Docker Sandbox 指定Pip源与代码运行无权限问题

在 volumes/sandbox/dependencies/python-requirements.txt 文件里面添加需要的包就行。这是由于 Dify 使用 sandbox 沙盒化容器执行工作流代码时，采用白名单策略对容器内的系统调用进行了限制，只允许运行特定的系统调用，从而确保不会出现意外的绕过。在 sandbox 的环境变量里添加了 PIP_MIRROR_URL，容器启动后就会在指定的源下载Pip包了。容器内是用 PIP_MIRROR_URL 环境变量指定源的。

2025-04-18 17:56:17 754

原创【Dify(v1.x) 核心源码深入解析】App Config 模块

Dify 的 App Config 模块是一个复杂但非常强大的配置管理系统。它通过一系列的管理类和实体类，实现了对模型配置、数据集配置、提示模板配置以及其他功能配置的全面管理。通过本文的详细解析，你应该能够理解 App Config 模块的架构设计、功能实现以及如何通过代码实现各种配置的转换和验证。希望这些内容能帮助你在使用 Dify 时更好地理解和利用这个模块。功能模块主要功能关键类模型配置管理管理模型的提供者、名称、模式和参数数据集配置管理管理数据集的检索策略、过滤条件等提示模板配置管理。

2025-04-17 14:26:05 161

原创问题修复记录：CUDA 11 Flash-Attention 安装

另外，ABI两个版本的 flash_attn 包的区别在于它们的编译选项，特别是关于 cxx11 ABI（Application Binary Interface）的设置，这影响到包的二进制兼容性。CUDA 11 去 github releases 需要找具体的版本。

2025-04-17 11:30:14 412

原创【Dify(v1.x) 核心源码深入解析】Agent 模块

Agent 模块是 Dify 中负责处理用户请求的核心组件。接收用户输入并解析请求。根据请求内容调用合适的工具或模型。生成响应并返回给用户。管理整个交互流程，包括工具调用、消息处理和状态管理。通过本文的详细解析，我们深入了解了 Dify 的 Agent 模块的架构设计和实现细节。Agent 模块通过灵活的策略、丰富的工具、高效的消息处理和状态管理，为开发者提供了一个强大的 AI 应用开发平台。希望本文能帮助你更好地理解和使用 Dify 的 Agent 模块。更智能的策略。

2025-04-15 14:02:23 717

原创中医名医 AI 个人大脑（LLM）技术方案详解

随着人工智能技术的飞速发展，越来越多的领域开始探索如何将AI与传统行业深度融合。中医作为中国传统文化的重要组成部分，其传承与发展一直面临诸多挑战。《中医名医 AI 个人大脑（LLM）技术方案》旨在通过AI技术为每位名医打造个性化大脑，实现中医知识的沉淀、传承与创新。

2025-04-15 12:04:28 93

原创【斯坦福】【ICLR】RAPTOR：基于树结构的检索增强技术详解

上图展示了 RAPTOR 树的构建过程。从叶节点（文本块）开始，通过递归地嵌入、聚类和摘要，构建出一个多层次的树状结构。每个父节点包含其子节点的摘要，从而形成了不同抽象层次的表示。RAPTOR 的核心思想是利用文本摘要来允许在不同尺度上进行检索增强，从而有效地处理长文档。文本分割与嵌入：将检索语料库分割成短文本块（约 100 个 token），并使用 SBERT（Sentence-BERT）对这些文本块进行嵌入，形成叶节点。聚类与摘要：对嵌入后的文本块进行聚类，然后使用语言模型对每个聚类生成摘要。

2025-03-28 11:51:48 1079

原创 RAG技术深度解析：从基础Agent到复杂推理Deep Search的架构实践

在自然语言处理领域，传统问答系统往往面临两大难题：如何突破模型知识边界？如何保障回答的可信度？RAG（Retrieval-Augmented Generation）架构应运而生。而当我们以工程视角实现RAG时，就需要一个标准化的载体——RAG Agent。

2025-03-07 13:18:55 1231

原创 DeepSeek-R1/Zero、RL GRPO以及蒸馏过程详解

传统方法：老师先教 1000 道例题（SFT 数据），学生模仿练习。R1-Zero 方法：直接扔给学生 100 万道题，配一台“自动批改机”。学生自己摸索解法，机器实时反馈对错。最终，学生总结出一套高效的解题套路，甚至超越老师教的答案。这就是 R1-Zero 的核心——让 AI 在“题海战术+自动批改”中自我顿悟。传统做法：召集全国名师手写答案 → 耗时十年，成本爆炸。AI 辅助做法Step1：请 10 位名师写 100 道标准答案（冷启动数据）。Step2。

2025-02-11 15:32:55 1767

原创问题修复记录：Xinference部署 Embedding Model 服务偶发超时

用 Xinference 部署Embedding Model，正常来说一次调用在 0.0x s 就能返回了，但是总会调着调着突然有超时的情况（超时设置为 0.2s）。这里模型我是部署了2个实例，每次的2次超时是在不同实例上的。可以看到偶发的超时是有规律性的，每隔20次调用都会超时2次。

2025-01-26 13:46:37 262

原创问题修复记录：Linux docker 部署 Dify，无法调用宿主机本地服务

使用docker compose启动Dify后，在其中配置本地xinference中的模型，报错：get xinference model extra parameter failed, url: http://127.0.0.1:9997/v1/models/bge-m3, error: HTTPConnectionPool(host=‘127.0.0.1’, port=9997): Max retries exceeded with url: /v1/models/bge-m3 (Caused by N

2025-01-23 12:41:33 1536

原创构建高效大模型技术栈：从算力资源到算法应用的实践与思考

自加入新的团队以来，我有幸领导了大模型团队的技术框架建设工作。在这段时间里，我们构建了一个三层架构（L0-L2），旨在为复杂的产品和业务需求提供强有力的支持。本文将分享我们在这一过程中的经验、遇到的挑战以及未来的展望。

2025-01-20 13:18:41 985

原创【vLLM】使用PagedAttention 进行大型语言模型的高效显存管理

大型语言模型（LLM, Large Language Models）是人工智能领域的一种深度学习模型，它们通过处理大量的文本数据来学习语言的模式，并能完成诸如文本生成、翻译、问答等多种任务。这些模型通常包含数十亿个参数，需要相当大的计算资源来进行训练和服务（即推理或预测）。在服务阶段，模型的参数、中间计算结果（激活值）、以及键值缓存（KV cache）都需要占用显存空间。如上图所示，当在一个 NVIDIA A100 GPU 上部署一个拥有130亿参数的大型语言模型时的显存布局情况。

2025-01-05 17:05:35 1226

原创构建高效可靠的分布式推理系统：深入解析控制器与模型服务的协同工作

控制器作为整个系统的中枢神经，负责管理和调度多个分布式的模型服务节点（workers）。它不仅需要为客户端提供可用的工作节点地址，还要确保任务能够被高效地分配到最合适的节点上。此外，控制器还实现了多种流量分发策略，以适应不同应用场景下的需求。每个模型服务实例运行特定的机器学习模型，处理来自客户端的推理请求并返回结果。它们与控制器协作，通过HTTP请求向控制器报告自身状态，接收任务分配指令。

2024-12-09 16:04:21 1259

原创音频-语言大模型原理

直接偏好优化 (DPO) 是一种优化技术，它帮助模型更好地理解并遵循人类的偏好。对于Qwen2-Audio来说，DPO主要用于优化模型的响应，使其更加符合用户的期望，尤其是在事实准确性与行为一致性方面。这个公式的目标是让模型更倾向于生成好的响应(y_w)而不是较差的响应(y_l)。DPO的目标是让模型生成的响应更接近于人类认为好的响应。为此，我们需要准备一个带有偏好信息的数据集，其中包含了对每组输入的好坏响应标注。在语音理解方面，模型架构主要包括两个连续的模块：语音编码器和适配器。

2024-09-08 14:49:38 1126

原创 Sora原理详解

这里，OpenAI 将 DALL·E 3 中介绍的标题生成技术用到了视频领域，训练了一个具备高度描述性的视频标题生成模型，使用这个模型为所有的视频训练数据生成了高质量文本标题，再将视频和高质量标题作为视频 - 文本对进行训练。虽然早期的 AI 生成剧本可能会显得比较生硬，但随着技术的发展，现在的 AI 能够生成更加自然流畅、富有创意的剧本。OpenAI 训练了一个降低视觉数据维度的网络，这个网络接受原始视频作为输入，然后进行视频压缩，也就是降低数据维度，最后输出的是在时间和空间上压缩过的表示形式。

2024-09-08 14:17:57 950

原创 LLM指令微调实践与分析

模型微调是指通过微调工具，加入企业独有的场景数据，对平台的基础模型进行微调。它可以帮助你快速定制出更符合你业务场景需求的专属大模型。它的优势在于对基础模型进行少量调整，满足特定的需求。相比训练新模型高效且低成本。

2024-09-03 16:21:05 896 1

原创动手打造互动虚拟人

【代码】动手打造互动虚拟人。

2024-09-03 09:09:50 751

原创 LLM微调原理详解

指令微调是指使用自然语言形式的数据对预训练后的大语言模型进行参数微调的过程。指令微调中的数据组织策略非常重要，因为它直接影响到模型最终的能力。指令微调是针对预训练的大语言模型进行的一项训练技术，旨在让模型更好地理解和执行特定的指令。指令数据构建的提升方法主要包括指令格式设计、扩展指令数量以及指令重写与筛选这三个方面。LoRA在大语言模型的微调中被广泛应用，能够显著降低模型训练成本。【腾讯文档】【第3章】低成本的领域&私域大模型训练方法。【腾讯文档】【第3章】低成本的领域&私域大模型训练方法。

2024-09-02 14:58:43 486

原创 LLM与知识图谱

在这个示例中，我们首先随机打乱社区摘要的顺序，然后将它们分割成更小的块，每个块的长度不超过50个字符。Answer Reasoning 是指代理（智能助手）在探索图结构并收集相关信息后，根据笔记本中记录的不同探索路径的信息来推断和回答问题的过程。Initial Node（初始节点）是指从图结构中选择的一个或几个节点，这些节点将成为探索图结构以寻找答案的起点。这种增强方法的基本思想是从知识图谱中检索出与问题相关的子图，并将这些子图的信息提供给大语言模型，从而增强模型的回答能力。

2024-09-02 14:10:08 897

原创 AI视频创作应用

该示例展示了文生视频应用，还包括多种其他生成模式，如文本引导的视频编辑，以及基于姿势、深度、边缘输入结合文本提示进行联合条件下的视频生成。只需上传视频并输入描述该视频的文本提示即可。除了使用应用演示来尝试预训练文生视频模型外，你还可以使用 Tune-a-Video 演示来微调现有的文生图模型，使用自己的文本-视频对。夜晚的丛林中，一只猫头鹰（主体）站在枯树枝上（环境描述），猫头鹰的眼睛在月光下闪闪发亮（动作）。比得兔（主体）开小汽车（主体描述），游走在马路上（环境描述），脸上的表情充满开心喜悦（氛围设定）

2024-08-21 10:59:26 387

原创数字虚拟人原理

通过调整基础形状和纹理的系数，可以生成不同的面部形状和纹理。具体地，头部姿态系数（ρ）可以表示为一个6维向量，其中前3维表示旋转参数（r），后3维表示平移参数（t）。通过调整这些头部姿态系数，可以改变生成的头部动画的姿态，使其与音频内容相匹配。通过从音频中学习生成头部姿态系数（ρ），从而实现了根据音频生成真实的3D运动系数。这些生成的头部姿态系数可以用于调整生成的面部动画，以使其更加逼真和自然。在3D面部重建中，β用于表示面部的表情变化。通过调整β的值，可以改变面部的表情，如微笑、皱眉等。

2024-08-21 10:46:35 303

SMP2020微博情绪分类技术评测数据集

SMP2020微博情绪分类技术评测数据集本次技术评测使用的标注数据集由哈尔滨工业大学社会计算与信息检索研究中心提供，原始数据源于新浪微博，由微热点大数据研究院提供，数据集分为两部分。第一部分为通用微博数据集，该数据集内的微博内容是随机获取到微博内容，不针对特定的话题，覆盖的范围较广。第二部分为疫情微博数据集，该数据集内的微博内容是在疫情期间使用相关关键字筛选获得的疫情微博，其内容与新冠疫情相关。因此，本次评测训练集包含上述两类数据：通用微博训练数据和疫情微博训练数据，相对应的，测试集也分为通用微博测试集和疫情微博测试集。参赛成员可以同时使用两种训练数据集来训练模型。每条微博被标注为以下六个类别之一：neutral（无情绪）、happy（积极）、angry（愤怒）、sad（悲伤）、fear（恐惧）、surprise（惊奇）。通用微博训练数据集包括27,768条微博，验证集包含2,000条微博，测试数据集包含5,000条微博。疫情微博训练数据集包括8,606条微博，验证集包含2,000条微博，测试数据集包含3,000

2022-12-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

SMP2020微博情绪分类技术评测数据集

Spark机器学习回归模型数据集

Spark机器学习文本处理数据集

Spark机器学习推荐模型数据集

Spark机器学习分类模型的数据集

jblas-1.2.4-SNAPSHOT

空空如也