汪洋里的船-CSDN博客

原创 nanochat代码讲解之五--推理引擎和评估系统

本文介绍了两个关键技术模块：高效推理引擎和核心评估系统。推理引擎Engine类实现了基于KV缓存的流式生成机制，支持工具调用(Python代码执行)和安全计算，通过预填充优化性能。核心评估系统core_eval.py提供标准化评估流程，支持多任务(选择题、模式匹配、语言建模)的few-shot评估，采用分布式处理优化速度，通过损失比较和预测匹配来判断正确性。系统实现了从高效推理到全面评估的完整闭环，特别优化了长序列处理和工具集成的能力，为AI模型提供了可靠的性能基准测试框架。

2025-11-11 11:11:39 613

原创 nanochat代码讲解之四--分词器和推理引擎

在软件开发领域，需求管理一直是项目成功的核心关键。随着项目复杂度提升和团队规模扩大，传统依赖文档、邮件和会议的需求管理方式显露出明显短板：版本混乱、协作困难、知识难以沉淀。更值得注意的是，行业内能够真正实现需求结构化、资产化，并结合AI技术进行智能化辅助的系统并不多见。我们公司是一家垂直领域专攻企业级需求与非企业级需求管理的公司，我们公司的大模型应用连接：http://aipoc.chtech.cn:8880/#/login 欢迎试用。

2025-11-07 17:13:32 272

原创基于拉马努金数学思想的终极优化GPT模型 - 完整实现

本文提出了一种基于拉马努金数学思想的Transformer架构深度优化方法，通过将拉马努金在连分数、模函数、数学常数等领域的研究成果应用于GPT模型的核心组件，实现了性能的全面提升。主要创新包括：(1)动态自适应连分数机制，替代传统归一化方法；(2)基于拉马努金常数的自适应学习率调度；(3)模函数理论增强的注意力权重系统；(4)数学结构自动发现模块。实验结果表明，该方法在训练速度、推理效率、内存占用和数学推理能力等方面均有显著提升，为深度学习与经典数学理论的融合提供了新的思路。

2025-11-07 10:54:11 338

原创基于拉马努金数学思想的Transformer架构深度优化：理论、方法与实证研究

摘要：本文提出拉马努金Transformer架构，通过整合拉马努金数学思想中的连分数理论、模函数、整数分拆和快速收敛级数等核心概念，系统性地优化了Transformer模型的计算效率和推理能力。该框架包括四个创新机制：动态自适应连分数归一化、模函数增强的注意力机制、拉马努金常数调度优化算法和数学结构自动发现引擎。在MATH数学推理、Wikitext-103语言建模和PG-19长序列处理等基准测试中，相较于标准Transformer，本模型在数学推理准确率提升50.8%，训练速度提升28%，内存占用减少37%

2025-11-06 16:24:22 1420

原创 nanochat代码讲解之三--优化器和数据加载器

本文介绍了三种优化器（DistAdamW、Muon、DistMuon）和一个分布式数据加载器的实现。DistAdamW采用ZeRO-2风格的分片优化器状态和梯度归约；Muon结合SGD动量和牛顿-舒尔茨迭代矩阵正交化；DistMuon是其分布式版本。数据加载器支持流式处理、异步操作和内存优化，采用固定内存和非阻塞传输技术。这些组件共同构成了高效训练大型语言模型的基础设施，适用于复杂软件开发场景。公司还提供基于大模型的需求管理系统，支持结构化、资产化需求管理。

2025-11-06 10:19:14 355

原创 Visual RM 需求数智化系统：银行新核心系统搭建与需求管理的数智化方案

银行业数字化转型面临新核心系统搭建和需求管理效率的双重挑战。VisualRM需求数智化系统通过四大核心能力：线上化协同实现跨部门高效联动，结构化拆解降低业技偏差，资产化复用提升历史需求价值，智能化赋能加速全流程效率。该系统打通需求全生命周期管理，帮助银行缩短新核心系统搭建周期50%，提升需求复用率至40%，降低开发返工率73%。典型案例显示，某城商行应用后研发成本减少800万元，客户满意度提升至95%。未来，系统将持续深化AI能力，实现需求预测和风险预警，助力银行业打造高效、智能的数字化核心。

2025-10-31 10:10:36 874 1

原创 nanochat代码讲解之二：模型架构 (GPT.py)

OpenAI研究员Karpathy开源了简洁版GPT模型NanoChat，该项目采用PyTorch实现，包含从训练到推理的全流程。核心创新点包括：1) 旋转位置编码替代传统位置嵌入；2) 多查询注意力机制降低内存消耗；3) 残差连接与RMSNorm优化；4) 高效的KV缓存设计。该实现特别注重推理效率，通过模块化架构展示了现代Transformer的最佳实践，是学习大语言模型内部工作原理的优质案例。项目地址：https://github.com/karpathy/nanochat

2025-10-20 11:44:41 555

原创 nanochat代码讲解之一：项目概述和基础工具类

本文介绍了软件开发中需求管理的痛点及解决方案，重点展示了NanoChat开源项目的架构与核心功能。项目采用分层设计，包含应用层、核心引擎层、数据层和基础设施层，提供完整的AI对话系统功能。文章详细解析了common.py工具文件，包括日志系统、分布式训练管理等核心功能实现。该项目体现了当前LLM开源项目的最佳实践，是学习大语言模型工作原理的优质案例。

2025-10-20 11:42:14 298

原创需求数智化平台 (Visual RM)

VisualRM需求数智化平台是维普时代推出的企业级解决方案，通过标准化、自动化和可视化的方式实现需求全生命周期管理。平台整合需求收集、分析、评审、跟踪等核心环节，打破信息孤岛，实现跨部门协同。其特点包括：标准化流程管理、全流程可视化协同、智能化需求处理、精细化质量管控，以及需求资产沉淀复用。该平台能显著提升需求交付效率和质量，缩短产品迭代周期，为企业数字化转型提供有力支撑，同时支持与第三方系统的无缝集成，满足企业个性化管理需求。

2025-10-13 17:48:41 1295 1

原创 AI人工智能之一个简单AI模型的代码说明

这段代码涵盖了从数据加载、预处理、模型定义、训练、验证到推理的完整流程。通过 Flask 应用，您可以将训练好的模型部署为一个 HTTP 服务，方便进行实时推理。希望这个解析对您有所帮助！如果还有任何问题，请随时提问。

2025-10-11 18:02:46 660

原创人工智能AI大模型之数据集

大模型的数据集是一个多层次、多目标的复杂生态系统预训练数据是基石，决定了模型的知识广度和深度。SFT数据是教练，决定了模型的行为模式和对话能力。RLHF数据是价值观校准器，决定了模型的输出安全性和人性化程度。构建一个成功的大模型，其核心工程挑战很大程度上在于如何大规模地收集、清洗、策划和组织这些不同类型的数据，而不仅仅是设计模型架构。好的，我们将详细说明大模型训练各个阶段（预训练、有监督微调-SFT、人类反馈强化学习-RLHF）中数据集的具体使用方式，并提供清晰的示例代码。我们将使用和。

2025-10-09 10:52:20 1796 2

原创 AI人工智能之重排序原理与代码详解

本文介绍了基于Transformer架构的企业级需求管理系统中的重排序技术实现。系统采用Qwen3-Reranker-0.6B-ONNX模型，通过批处理、线程池优化和缓存机制提升性能，支持最大512序列长度和8批量大小。核心功能包括查询-文档语义匹配、动态负载均衡、异常恢复机制等，实现了无GPU环境下高效运行，为信息检索提供精准的重排序能力。

2025-09-30 09:45:35 879 2

原创大模型中的分词器的原理与使用方式

特性说明目的将原始文本转换为模型可处理的数字ID序列。主流方法子词分词（Subword Tokenization），尤其是BPE及其变种（如Byte-level BPE）。核心组件词汇表（Vocabulary）：一个映射字典，key是token，value是对应的ID。特殊符号[CLS]（分类）、[SEP]（分隔）、[PAD]（填充）、[MASK]（掩码）、[UNK]（未知）。使用流程加载分词器 -> 调用进行编码 -> 模型处理 ->进行解码。重要参数paddingtruncation。

2025-09-29 10:32:00 1652 2

原创如何构建一个参数规模为 0.5B 的中文文本推理大模型

这个示例展示了如何构建一个参数规模为 0.5B 的中文文本推理大模型，并使用混合精度训练、梯度累积和动态批处理等优化策略。通过 Flask 服务，您可以将模型部署为一个 HTTP 服务，方便进行实时推理。希望这个示例对您有所帮助！如果还有任何问题，请随时提问。

2025-09-29 10:19:30 248

原创需求管理产品之--大模型中的张量及框架张量类型

文章摘要：本文系统介绍了深度学习中的张量概念及其在PyTorch和TensorFlow框架中的实现差异。首先阐述了张量作为多维数组的核心特性（形状、数据类型、设备等），并通过实例说明其在大模型中的应用场景。其次详细对比了两大框架的张量操作特性：PyTorch强调动态图和灵活调试，TensorFlow侧重生产部署和静态图优化。最后提出了大模型开发中的最佳实践建议，包括形状管理、混合精度训练和设备协调等。文章指出，理解张量不仅是掌握模型开发的基石，更是实现高效训练和性能优化的关键所在。（149字）

2025-09-28 15:01:58 980 1

原创需求管理产品AI人功智能之--提示词工程

本文介绍了高效提示词设计的五大核心结构模式：1. 通用公式（角色+任务+上下文+指令+约束+输出格式）提供一个系统化框架，适用于大多数场景；2. CRISPE框架（能力角色、背景洞察、任务陈述、个性风格、实验迭代）特别适合创意性工作；3. COSTAR结构（背景、目标、风格、语气、受众、响应格式）专注于沟通类任务；4. 思维链(CoT)模式通过分步推理解决复杂问题；5. 六大基本原则（清晰明确、提供上下文、定义格式、分解任务、迭代优化、分配角色）构成提示词设计的基础方法论。这些模式能显著提升与大语言模型交互

2025-09-28 13:58:05 1309 1

原创现代需求管理的挑战与智能化解决方案探析

通过采用现代化的需求管理方法，团队可以提升协作效率，保证需求质量，实现知识的持续积累和复用。智能查漏补缺功能通过分析需求内容，自动关联已有资产库中的功能模块和业务术语，提示潜在的内容遗漏或逻辑缺陷，帮助团队输出更完整、更可靠的需求文档。同时，需求资产化的实践也需要团队改变传统的工作方式，建立知识管理和复用的文化氛围。将需求转化为可复用的知识资产，是现代需求管理的重要发展方向。针对大型项目的需求拆分机制允许将复杂需求按功能模块分解为若干子需求，分配给不同团队并行处理，同时保持需求状态的全程可追踪性。

2025-09-22 17:53:40 499 2

TA关注的人

tanxiangbo的专栏