自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2106)
  • 收藏
  • 关注

原创 torch.compile 加速原理:kernel 融合与缓冲区复用

PyTorch即时执行模式因频繁kernel启动和重复显存搬运导致内存带宽瓶颈,GPU算力利用率低。`torch.compile`通过TorchDynamo捕获FX图、TorchInductor实现操作融合、缓冲区复用与Triton自动调优,显著降低VRAM访问次数。官方测试显示平均加速20%–36%,一行代码即可启用,大幅提升推理吞吐与能效。

2026-02-03 22:18:00 634

原创 LangGraph 入门:用图结构构建你的第一个多智能体工作流

LangGraph 是面向多智能体系统的图编排框架,以有向状态图替代线性链式调用。通过节点(智能体)、边(条件/静态跳转)和类型化共享状态三者解耦,天然支持分支、循环、并行与汇合;内置检查点、原子状态更新与Reducer机制,保障一致性、可调试性与容错恢复能力。

2026-02-02 21:05:15 724

原创 让 AI 智能体学会自我进化:Agent Lightning 实战入门

Agent Lightning 是一个框架无关的强化学习包装层,赋能现有AI智能体实现在线持续学习。它解耦执行与训练,支持LangChain/AutoGen等任意框架,通过VERL算法解决稀疏奖励难题,让智能体从运行反馈中自动优化提示词与策略。

2026-02-01 21:07:30 582

原创 用 PyTorch 实现 LLM-JEPA:不预测 token,预测嵌入

本文从零实现LLM-JEPA:将大语言模型与联合嵌入预测架构(JEPA)结合。通过span遮蔽构造context/target双视图,用可训练编码器预测目标编码器在遮蔽位置的归一化嵌入,以余弦距离为对齐损失,并通过EMA稳定训练。代码简洁清晰,逐行注释,助你深入理解JEPA核心思想。

2026-01-31 21:31:25 992

原创 大模型如何训练百万 Token 上下文:上下文并行与 Ring Attention

上下文窗口暴增至千万级,但硬件难承其重:405B模型单精度权重就需6.5TB内存。为突破显存瓶颈,上下文并行与Ring Attention应运而生——将长序列切分至多卡,边传边算;Zig-Zag分配更实现因果注意力下的负载均衡。高速互连(NVLink/InfiniBand)已成刚需。

2026-01-30 22:25:10 779

原创 让 Q 值估计更准确:从 DQN 到 Double DQN 的改进方案

本文深入剖析DQN的过估计偏差根源,详解Double DQN(解耦动作选择与评估)、Dueling DQN(分离状态值与动作优势)、优先经验回放(按TD误差智能采样)三大核心改进,并用PyTorch从零实现,最后对比CleanRL专业实现,助你扎实掌握强化学习进阶技巧。

2026-01-29 21:15:23 1189

原创 Claude Code子代理实战:10个即用模板分享

Claude Code单次泛化指令易失效?作者提出“子代理”理念:为AI分配专属角色(如重构专家、测试员、安全审查员),每代理专注一事、规则明确、输出可控。10个实战模板覆盖开发全链路,让AI协作更接近真实工程团队——专注比全能更可靠。

2026-01-28 21:42:55 634

原创 pandas 3.0 内存调试指南:学会区分真假内存泄漏

本文揭秘pandas“内存不释放”的常见误解:非泄漏,实为CoW共享、Arrow缓冲池、视图隐式引用及分配器延迟归还OS内存所致。RSS≠真实占用,排查需结合tracemalloc、objgraph与原生指标,核心是管控引用生命周期。(239字)

2026-01-27 21:53:53 868

原创 用 PydanticAI 让 LLM 输出变成可信赖的 Python 对象

本文介绍PydanticAI——专治LLM输出“差不多但不对”的类型安全方案。它将AI响应直接转为经验证的Python对象,杜绝字段错、类型乱、key多等顽疾;与CrewAI深度协同,前者保障数据契约,后者专注任务编排,显著提升Agent系统稳定性与可维护性。

2026-01-26 21:41:01 714

原创 为什么标准化要用均值0和方差1?

标准化将均值设为0,使数据居中于原点,提升梯度下降收敛速度;方差设为1,则统一各特征量纲,避免数值大的特征主导模型。二者协同确保算法训练更高效、公平。(239字)

2026-01-25 20:51:34 459

原创 知识图谱的可验证性:断言图谱的设计原理

本文剖析大语言模型在知识图谱构建中的根本局限:生成式架构与结构化提取存在本质错位,导致实体消歧难、幻觉频发、上下文割裂。提出以判别式模型构建可验证的“断言知识图谱”为基石,再按需融合分类学扩展、规则推理、链接预测等增强策略,实现高质、可信、可解释的生产级知识图谱。

2026-01-24 22:40:23 728

原创 OPIK:一个开源的自动提示词优化框架

本文介绍如何用OPIK的MetaPromptOptimizer实现自动提示词优化,通过几轮迭代将大模型在复杂推理任务上的准确率从34%提升至97%。详解环境搭建、代码实现及优缺点,展示如何让LLM自我改进提示词,大幅提升效率与性能,推动提示工程迈向自动化。

2026-01-23 20:09:40 869

原创 RAG 检索模型如何学习:三种损失函数的机制解析

本文探讨Agent时代下检索模型的持续重要性,聚焦RAG中核心组件——检索嵌入模型的三种训练方法:Pairwise Cosine Embedding Loss、Triplet Margin Loss与InfoNCE Loss,并基于实验对比其适用场景与效果。(239字)

2026-01-22 22:46:25 435

原创 对抗样本:20行Python代码让95%准确率的图像分类器彻底失效

本文揭示深度学习模型在高准确率背后隐藏的脆弱性:通过FGSM等方法生成的微小对抗扰动,可令VGG、ResNet等模型将法斗误判为足球。Grad-CAM显示模型注意力被补丁劫持,暴露出其依赖统计捷径而非语义理解的本质。

2026-01-21 21:54:27 650

原创 使用 tsfresh 和 AutoML 进行时间序列特征工程

使用 tsfresh 和 AutoML 进行时间序列特征工程

2026-01-20 20:57:57 1112

原创 用提示工程让大模型自己检查自己:CoVe方法有效减少幻觉

Chain-of-Verification(CoVe)通过“起草-验证-修复”四步流程,让大模型自我纠错幻觉。关键在于隔离验证:隐去初稿,迫使模型独立核查事实,避免自我强化错误。适用于模型应知但易错的场景,与RAG互补。虽增加延迟与成本,却为高可靠性任务提供保障,是迈向“系统2思维”的重要一步。

2026-01-19 22:07:23 721

原创 为什么所有主流LLM都使用SwiGLU?

本文解析现代大语言模型为何用SwiGLU替代ReLU。SwiGLU结合Swish与门控机制,通过乘法交互实现特征组合,增强表达能力;其平滑性与非饱和梯度利于优化,相较ReLU更具优势。

2026-01-18 20:20:44 1198

原创 多智能体强化学习(MARL)核心概念与算法概览

多智能体强化学习(MARL)研究多个智能体在共享环境中协同或竞争的决策问题。每个智能体拥有局部观测、独立策略,且环境因其他智能体的学习而动态变化,导致非平稳性、信用分配难、协调复杂等挑战。广泛应用包括交通控制、机器人协作、广告竞价等。常用方法如IQL、VDN、QMIX、MADDPG、MAPPO等,结合集中训练分布式执行(CTDE)提升稳定性。通过简单协调游戏可窥见MARL核心机制:智能体需在探索与协调间平衡,以涌现合作行为。

2026-01-17 22:20:04 809

原创 LLM多跳推理深度测试:四项指标精准定位模型的推理极限

本文探讨大模型在多步推理中的表现,通过四项压力测试对比Llama 3.2与Qwen 3的逻辑极限。分析揭示:Llama 3.2依赖预训练内化的直觉推理,稳定高效;Qwen 3则靠“自我对话”推进复杂任务,虽具思考深度但易受算术错误影响,深层推理易崩溃。两者适用于不同场景——速度优先选Llama,探索性任务可试Qwen。

2026-01-16 20:37:49 865

原创 Agentic Memory 实践:用 agents.md 实现 LLM 持续学习

利用 agents.md 文件实现LLM持续学习,让AI Agent记住你的编程习惯、偏好和常用信息,避免重复指令,显著提升效率。每次交互后自动归纳经验,减少冷启动成本,跨工具通用,是高效工程师的必备技能。

2026-01-15 22:45:18 774

原创 CALM模型的黑盒采样:用碰撞方法实现温度调节

本文提出一种无需显式概率的温度控制方法,解决连续自回归语言模型(CALM)因缺乏logits而无法传统调温的问题。通过碰撞采样、指数分解与批量近似技术,仅用样本即可实现对生成分布的尖锐或发散调控,补全了CALM可控生成的最后一块拼图,并适用于各类隐式生成模型。

2026-01-14 21:16:54 798

原创 RAG检索模型选型:Bi-Encoder、Cross-Encoder、SPLADE与ColBERT的技术对比

本文解析RAG系统中Bi-Encoder、Cross-Encoder、SPLADE与ColBERT的核心机制,探讨如何平衡高召回与高精准。通过多阶段架构组合稀疏与稠密检索,实现高效准确的语义搜索。

2026-01-13 21:09:12 748

原创 构建自己的AI编程助手:基于RAG的上下文感知实现方案

打造智能代码助手,远不止调用API。需构建专为代码设计的RAG系统:基于AST解析保障分块完整性,向量库实现语义检索,结合仓库地图提供全局结构,再通过推理链整合上下文。如此,AI才能真正理解代码,胜任重构、答疑等复杂任务,成为懂你项目的“资深工程师”。

2026-01-12 21:34:25 1050

原创 深度研究Agent架构解析:4种Agent架构介绍及实用Prompt模板

本文系统梳理了深度搜索Agent的主流架构演进:从基础的Planner-Only,到引入评估反馈的双模块设计,再到支持层次化分解的递归式ROMA方案。重点解析了问题拆解与终止判断两大核心挑战,并提供了实用的Prompt模板与优化策略,为构建高效搜索Agent提供清晰路径。

2026-01-11 21:14:57 927 1

原创 别再往一个智能体里塞功能了:6种多智能体模式技术解析与选型指南

单智能体在功能增多时易陷入“指令迷雾”与“工具过载”,导致失效。本文提出6种多智能体架构模式:顺序流水线、并行扇出、层级监督、路由分发、反思迭代、共识投票,类比团队协作,通过分工提升系统稳定性与扩展性,解决复杂任务下的性能衰减问题。

2026-01-10 21:23:59 973

原创 LLM-as-a-judge有30%评测偏差?这篇论文给出修复方案

KRAFTON AI研究揭示,用LLM评估LLM存在高达30%的系统性偏差,导致性能排名失真。评判模型的敏感性与特异性不均衡,使分数偏离真实水平。论文提出基于Rogan-Gladen估计器的校正方法,结合小规模标注数据校准偏差,并量化不确定性,提升评估可靠性。结果表明,未经校正的排行榜可能误导研发方向。评估自动化需以统计严谨为前提,校准不是可选而是必需。

2026-01-09 22:36:20 1149

原创 神经辐射场NeRF入门:3D视图合成的原理与PyTorch代码实现

NeRF(神经辐射场)用多层感知机将5D坐标(位置+视角)映射为颜色和密度,通过过拟合单个场景实现高质量新视角合成。结合位置编码与体积渲染,以隐式方式表征三维场景,仅需少量图像即可重建精细结构。

2026-01-08 21:19:03 1792

原创 Mosaic:面向超长序列的多GPU注意力分片方案

本文剖析Transformer中“二次方注意力瓶颈”的成因与工程破解之道,聚焦Mosaic提出的多轴注意力分片方案。针对长序列内存爆炸问题,Mosaic通过灵活路由不同轴至本地或分布式后端(如Ring、Mesh2D),实现高效计算与通信平衡,尤其适用于表格等多维数据场景,显著降低显存占用且不侵入模型代码。

2026-01-07 19:42:22 1128

原创 Agentic RAG:用LangGraph打造会自动修正检索错误的 RAG 系统

本文介绍基于 LangGraph 与 Redis 构建生产级 Agentic RAG 系统,通过引入智能体机制实现检索结果的自动评估与查询重写,解决传统 RAG 回答偏离问题。系统具备自校正、决策透明与模块化优势,显著提升复杂场景下的问答准确率。

2026-01-06 21:36:56 877

原创 DecEx-RAG:过程监督+智能剪枝,让大模型检索推理快6倍

DecEx-RAG将Agentic RAG建模为马尔可夫决策过程,通过决策与执行分离、动态剪枝机制,实现高效推理。相比传统方法,其搜索复杂度从指数级降至线性,提速近6倍且性能不损,显著提升开放域问答效果。

2026-01-05 20:49:42 993

原创 JAX性能优化实战:7个变换让TPU/GPU吃满算力

JAX性能提升七技巧:jit稳定形状、vmap替代循环、scan融合长序列、remat用计算换内存、pmap单机多卡、pjit实现SPMD并行、value_and_grad正确组合。配合分片与aux输出,最大化XLA优化,提升计算效率。

2026-01-04 20:39:31 952

原创 Google Code Wiki:GitHub代码库秒变可交互文档

Google Code Wiki 利用 AI 为代码库构建动态知识层,通过 Tree-sitter 解析结构、生成知识图谱,并结合混合检索策略实现精准问答。支持自动文档生成、可视化图表与自然语言交互,让代码可读、可问、可演进,大幅提升理解效率。

2026-01-03 21:51:09 389

原创 从贝叶斯视角解读Transformer的内部几何:mHC的流形约束与大模型训练稳定性

大模型训练常因架构改动破坏内部贝叶斯几何结构,导致不稳定。研究表明,Transformer通过残差流、注意力与值表征在低维流形上实现类贝叶斯推理。mHC通过约束超连接保护这一几何结构,确保规模化下的训练稳定与推理一致性。

2026-01-02 22:23:41 984

原创 DeepSeek 开年王炸:mHC 架构用流形约束重构 ResNet 残差连接

大过节DeepSeek在arXiv发布mHC新论文,挑战Transformer残差连接范式。通过流形约束(谱范数+双重随机矩阵),在保持高带宽信息通路的同时恢复恒等映射稳定性,解决深层网络梯度传播难题,理论扎实且兼顾系统效率,或成“后Transformer时代”架构新方向。

2026-01-01 21:21:05 1669

原创 Lux 上手指南:让 AI 直接操作你的电脑

Lux 是一款能直接操作计算机的AI基础模型,通过视觉理解与动作预测,实现自然语言指令下的自动化任务。它无需依赖API,可像真人一样点击、输入、滚动,完成浏览器操作等复杂工作,准确率超越主流模型,是迈向“意图即执行”的重要突破。

2025-12-31 22:44:09 1047

原创 对抗样本攻击详解:如何让AI模型产生错误判断

对抗样本是通过微小扰动欺骗机器学习模型的输入,人眼难辨却致模型高置信度误判。其原理源于模型线性特性,如FGSM利用梯度符号生成扰动。此类攻击具迁移性,可跨模型生效,但亦可用于对抗训练,提升模型鲁棒性与泛化能力。

2025-12-30 20:57:24 1084

原创 大规模向量检索优化:Binary Quantization 让 RAG 系统内存占用降低 32 倍

本文介绍基于二值化量化的高效RAG系统,通过将float32嵌入压缩为1bit,实现32倍内存缩减。结合Milvus与Hamming距离检索,3600万向量查询仅需30ms。采用过采样与重排序策略,准确率可达95%以上,适合高维大规模场景。

2025-12-29 21:44:55 1146

原创 向量搜索升级指南:FAISS 到 Qdrant 迁移方案与代码实现

FAISS 适合实验,但生产环境痛点诸多:无元数据支持、非服务化、难持久化。迁移到 Qdrant 后,实现开箱即用的向量数据库能力,支持混合搜索、过滤、持久化与高效 API,大幅提升系统稳定性与开发效率,真正打通从研究到生产的闭环。

2025-12-28 22:03:21 951

原创 CALM自编码器:用连续向量替代离散token,生成效率提升4倍

近年来语言模型效率优化多聚焦参数规模与注意力机制,却忽视了自回归生成本身的高成本。CALM提出新思路:在token之上构建潜在空间,通过变分自编码器将多个token压缩为一个连续向量,实现“一次前向传播生成多个token”。该方法大幅减少计算次数,提升推理速度与吞吐量,同时引入无似然训练与BrierLM评估体系,突破传统语言建模范式,为高效大模型提供新路径。

2025-12-27 23:35:17 1053

原创 dLLM:复用自回归模型权重快速训练扩散语言模型

dLLM是一个开源Python框架,统一了扩散语言模型的训练、微调、推理与评估流程。它支持将任意自回归大模型(如LLaMA、BERT)转化为扩散模型,提供LoRA、4-bit量化等高效训练能力,并兼容Hugging Face生态。通过Masked Diffusion、Edit Flows等方法,实现文本全局优化生成与编辑,在复杂推理、结构化输出等任务中表现优异,推动扩散语言模型迈向实用化。

2025-12-26 20:00:54 753

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除