自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2088)
  • 收藏
  • 关注

原创 LLM多跳推理深度测试:四项指标精准定位模型的推理极限

本文探讨大模型在多步推理中的表现,通过四项压力测试对比Llama 3.2与Qwen 3的逻辑极限。分析揭示:Llama 3.2依赖预训练内化的直觉推理,稳定高效;Qwen 3则靠“自我对话”推进复杂任务,虽具思考深度但易受算术错误影响,深层推理易崩溃。两者适用于不同场景——速度优先选Llama,探索性任务可试Qwen。

2026-01-16 20:37:49 477

原创 Agentic Memory 实践:用 agents.md 实现 LLM 持续学习

利用 agents.md 文件实现LLM持续学习,让AI Agent记住你的编程习惯、偏好和常用信息,避免重复指令,显著提升效率。每次交互后自动归纳经验,减少冷启动成本,跨工具通用,是高效工程师的必备技能。

2026-01-15 22:45:18 598

原创 CALM模型的黑盒采样:用碰撞方法实现温度调节

本文提出一种无需显式概率的温度控制方法,解决连续自回归语言模型(CALM)因缺乏logits而无法传统调温的问题。通过碰撞采样、指数分解与批量近似技术,仅用样本即可实现对生成分布的尖锐或发散调控,补全了CALM可控生成的最后一块拼图,并适用于各类隐式生成模型。

2026-01-14 21:16:54 604

原创 RAG检索模型选型:Bi-Encoder、Cross-Encoder、SPLADE与ColBERT的技术对比

本文解析RAG系统中Bi-Encoder、Cross-Encoder、SPLADE与ColBERT的核心机制,探讨如何平衡高召回与高精准。通过多阶段架构组合稀疏与稠密检索,实现高效准确的语义搜索。

2026-01-13 21:09:12 598

原创 构建自己的AI编程助手:基于RAG的上下文感知实现方案

打造智能代码助手,远不止调用API。需构建专为代码设计的RAG系统:基于AST解析保障分块完整性,向量库实现语义检索,结合仓库地图提供全局结构,再通过推理链整合上下文。如此,AI才能真正理解代码,胜任重构、答疑等复杂任务,成为懂你项目的“资深工程师”。

2026-01-12 21:34:25 885

原创 深度研究Agent架构解析:4种Agent架构介绍及实用Prompt模板

本文系统梳理了深度搜索Agent的主流架构演进:从基础的Planner-Only,到引入评估反馈的双模块设计,再到支持层次化分解的递归式ROMA方案。重点解析了问题拆解与终止判断两大核心挑战,并提供了实用的Prompt模板与优化策略,为构建高效搜索Agent提供清晰路径。

2026-01-11 21:14:57 769 1

原创 别再往一个智能体里塞功能了:6种多智能体模式技术解析与选型指南

单智能体在功能增多时易陷入“指令迷雾”与“工具过载”,导致失效。本文提出6种多智能体架构模式:顺序流水线、并行扇出、层级监督、路由分发、反思迭代、共识投票,类比团队协作,通过分工提升系统稳定性与扩展性,解决复杂任务下的性能衰减问题。

2026-01-10 21:23:59 864

原创 LLM-as-a-judge有30%评测偏差?这篇论文给出修复方案

KRAFTON AI研究揭示,用LLM评估LLM存在高达30%的系统性偏差,导致性能排名失真。评判模型的敏感性与特异性不均衡,使分数偏离真实水平。论文提出基于Rogan-Gladen估计器的校正方法,结合小规模标注数据校准偏差,并量化不确定性,提升评估可靠性。结果表明,未经校正的排行榜可能误导研发方向。评估自动化需以统计严谨为前提,校准不是可选而是必需。

2026-01-09 22:36:20 1058

原创 神经辐射场NeRF入门:3D视图合成的原理与PyTorch代码实现

NeRF(神经辐射场)用多层感知机将5D坐标(位置+视角)映射为颜色和密度,通过过拟合单个场景实现高质量新视角合成。结合位置编码与体积渲染,以隐式方式表征三维场景,仅需少量图像即可重建精细结构。

2026-01-08 21:19:03 1672

原创 Mosaic:面向超长序列的多GPU注意力分片方案

本文剖析Transformer中“二次方注意力瓶颈”的成因与工程破解之道,聚焦Mosaic提出的多轴注意力分片方案。针对长序列内存爆炸问题,Mosaic通过灵活路由不同轴至本地或分布式后端(如Ring、Mesh2D),实现高效计算与通信平衡,尤其适用于表格等多维数据场景,显著降低显存占用且不侵入模型代码。

2026-01-07 19:42:22 1023

原创 Agentic RAG:用LangGraph打造会自动修正检索错误的 RAG 系统

本文介绍基于 LangGraph 与 Redis 构建生产级 Agentic RAG 系统,通过引入智能体机制实现检索结果的自动评估与查询重写,解决传统 RAG 回答偏离问题。系统具备自校正、决策透明与模块化优势,显著提升复杂场景下的问答准确率。

2026-01-06 21:36:56 794

原创 DecEx-RAG:过程监督+智能剪枝,让大模型检索推理快6倍

DecEx-RAG将Agentic RAG建模为马尔可夫决策过程,通过决策与执行分离、动态剪枝机制,实现高效推理。相比传统方法,其搜索复杂度从指数级降至线性,提速近6倍且性能不损,显著提升开放域问答效果。

2026-01-05 20:49:42 930

原创 JAX性能优化实战:7个变换让TPU/GPU吃满算力

JAX性能提升七技巧:jit稳定形状、vmap替代循环、scan融合长序列、remat用计算换内存、pmap单机多卡、pjit实现SPMD并行、value_and_grad正确组合。配合分片与aux输出,最大化XLA优化,提升计算效率。

2026-01-04 20:39:31 896

原创 Google Code Wiki:GitHub代码库秒变可交互文档

Google Code Wiki 利用 AI 为代码库构建动态知识层,通过 Tree-sitter 解析结构、生成知识图谱,并结合混合检索策略实现精准问答。支持自动文档生成、可视化图表与自然语言交互,让代码可读、可问、可演进,大幅提升理解效率。

2026-01-03 21:51:09 341

原创 从贝叶斯视角解读Transformer的内部几何:mHC的流形约束与大模型训练稳定性

大模型训练常因架构改动破坏内部贝叶斯几何结构,导致不稳定。研究表明,Transformer通过残差流、注意力与值表征在低维流形上实现类贝叶斯推理。mHC通过约束超连接保护这一几何结构,确保规模化下的训练稳定与推理一致性。

2026-01-02 22:23:41 879

原创 DeepSeek 开年王炸:mHC 架构用流形约束重构 ResNet 残差连接

大过节DeepSeek在arXiv发布mHC新论文,挑战Transformer残差连接范式。通过流形约束(谱范数+双重随机矩阵),在保持高带宽信息通路的同时恢复恒等映射稳定性,解决深层网络梯度传播难题,理论扎实且兼顾系统效率,或成“后Transformer时代”架构新方向。

2026-01-01 21:21:05 1598

原创 Lux 上手指南:让 AI 直接操作你的电脑

Lux 是一款能直接操作计算机的AI基础模型,通过视觉理解与动作预测,实现自然语言指令下的自动化任务。它无需依赖API,可像真人一样点击、输入、滚动,完成浏览器操作等复杂工作,准确率超越主流模型,是迈向“意图即执行”的重要突破。

2025-12-31 22:44:09 933

原创 对抗样本攻击详解:如何让AI模型产生错误判断

对抗样本是通过微小扰动欺骗机器学习模型的输入,人眼难辨却致模型高置信度误判。其原理源于模型线性特性,如FGSM利用梯度符号生成扰动。此类攻击具迁移性,可跨模型生效,但亦可用于对抗训练,提升模型鲁棒性与泛化能力。

2025-12-30 20:57:24 1031

原创 大规模向量检索优化:Binary Quantization 让 RAG 系统内存占用降低 32 倍

本文介绍基于二值化量化的高效RAG系统,通过将float32嵌入压缩为1bit,实现32倍内存缩减。结合Milvus与Hamming距离检索,3600万向量查询仅需30ms。采用过采样与重排序策略,准确率可达95%以上,适合高维大规模场景。

2025-12-29 21:44:55 1121

原创 向量搜索升级指南:FAISS 到 Qdrant 迁移方案与代码实现

FAISS 适合实验,但生产环境痛点诸多:无元数据支持、非服务化、难持久化。迁移到 Qdrant 后,实现开箱即用的向量数据库能力,支持混合搜索、过滤、持久化与高效 API,大幅提升系统稳定性与开发效率,真正打通从研究到生产的闭环。

2025-12-28 22:03:21 929

原创 CALM自编码器:用连续向量替代离散token,生成效率提升4倍

近年来语言模型效率优化多聚焦参数规模与注意力机制,却忽视了自回归生成本身的高成本。CALM提出新思路:在token之上构建潜在空间,通过变分自编码器将多个token压缩为一个连续向量,实现“一次前向传播生成多个token”。该方法大幅减少计算次数,提升推理速度与吞吐量,同时引入无似然训练与BrierLM评估体系,突破传统语言建模范式,为高效大模型提供新路径。

2025-12-27 23:35:17 1038

原创 dLLM:复用自回归模型权重快速训练扩散语言模型

dLLM是一个开源Python框架,统一了扩散语言模型的训练、微调、推理与评估流程。它支持将任意自回归大模型(如LLaMA、BERT)转化为扩散模型,提供LoRA、4-bit量化等高效训练能力,并兼容Hugging Face生态。通过Masked Diffusion、Edit Flows等方法,实现文本全局优化生成与编辑,在复杂推理、结构化输出等任务中表现优异,推动扩散语言模型迈向实用化。

2025-12-26 20:00:54 729

原创 机器学习时间特征处理:循环编码(Cyclical Encoding)与其在预测模型中的应用

处理时间特征时,直接使用线性数值会引发“午夜悖论”,导致模型在时间断点处表现失真。本文详解如何用正弦和余弦函数将时间映射为循环特征,解决23:59与00:01的断裂问题,提升模型对周期性模式的理解,适用于小时、星期、月份等场景,显著优化预测效果。

2025-12-25 21:16:05 1607 1

原创 Anthropic 开源 Bloom:基于 LLM 的自动化行为评估框架

Anthropic推出开源框架Bloom,可自动化评估大语言模型是否阿谀奉承、有政治倾向或绕过监管等行为。不同于传统基准,Bloom基于配置动态生成测试场景,支持多模型、多样化评估,并提供可视化分析,助力模型安全与对齐研究。(237字)

2025-12-24 22:25:53 1171

原创 Pydantic-DeepAgents:基于 Pydantic-AI 的轻量级生产级 Agent 框架

DeepAgents的灵感源自 LangChain deepagents,但在设计上更做减法,它强调类型安全且内置了 Docker 沙箱

2025-12-23 19:21:23 1015

原创 别再浪费内存了:Python __slots__ 机制深入解析

Python中`__slots__`通过预定义属性名,避免使用`__dict__`存储,显著减少内存占用并提升访问速度。适用于需创建大量实例的场景,如数据处理、科学计算等,以牺牲动态添加属性为代价换取性能优化。

2025-12-22 22:18:12 530

原创 Scikit-image 实战指南:10 个让 CV 模型更稳健的预处理技巧

本文总结了基于 scikit-image 的十个工程化模式,旨在帮助开发者消除输入数据的不确定性将杂乱的原始图像转化为对模型真正友好的高质量张量。

2025-12-21 19:46:20 841

原创 1小时微调 Gemma 3 270M 端侧模型与部署全流程

Gemma 3 270M是谷歌推出的轻量级开源模型,可快速微调并压缩至300MB内,实现在浏览器中本地运行。本文教你用QLoRA在Colab微调模型,构建emoji翻译器,并通过LiteRT量化至4-bit,结合MediaPipe在前端离线运行,实现零延迟、高隐私的AI体验。小模型也能有大作为。

2025-12-20 22:42:16 874

原创 ONNX Runtime Python 推理性能优化:8 个低延迟工程实践

深度学习推理慢?未必是模型问题。本文揭示8大ONNX Runtime工程优化技巧:合理选择执行提供器、精准控制线程、规避内存拷贝、固定Shape分桶、启用图优化、CPU量化加速、预热与微批处理、向量化前后处理。不改模型也能显著提升性能,低延迟落地关键在于细节调优。

2025-12-19 19:09:51 804

原创 Scikit-Learn 1.8引入 Array API,支持 PyTorch 与 CuPy 张量的原生 GPU 加速

Scikit-Learn 1.8.0 首次引入实验性 Array API 支持,可直接使用 CuPy 数组或 PyTorch 张量,计算全程保留在 GPU。交叉验证等操作不再强制转回 CPU,大幅提升效率。需配置环境变量与 `set_config` 开启,目前支持部分组件如 Ridge、GaussianMixture 等,标志其迈向 GPU 加速的重要一步。

2025-12-18 21:23:50 1473

原创 llama.cpp Server 引入路由模式:多模型热切换与进程隔离机制详解

llama.cpp 于2025年12月11日发布路由模式,支持多模型动态加载与毫秒级切换,无需重启服务。采用多进程隔离架构,兼容OpenAI API,支持自动发现、按需加载、LRU淘汰及手动管理,显著提升本地多模型协作的效率与稳定性,是轻量级推理服务框架的重要升级。

2025-12-17 21:12:47 1562 1

原创 不仅仅是 Try/Except:资深 Python 工程师的错误处理工程化实践

本文深入解析Python生产级异常处理:从基础try/except到自定义异常、结构化日志、重试机制,揭示如何构建高韧性系统。避免裸except陷阱,善用with、logging与上下文管理器,让程序“软着陆”,提升稳定性和可维护性。

2025-12-16 22:22:44 679

原创 深度解析 Google JAX 全栈:带你上手开发,从零构建神经网络

Google凭借JAX AI栈实现AI全栈垂直整合,覆盖模型、应用、云与硬件。JAX结合XLA编译器,Flax构建网络,Optax优化训练,Orbax管理 checkpoint,已在Google及Anthropic、Apple等广泛应用,助力高效大规模AI训练。

2025-12-15 22:00:12 1113

原创 基于强化学习的量化交易框架 TensorTrade

TensorTrade 是一个基于强化学习的开源交易算法框架。它通过环境模拟、策略训练与奖励机制,让AI在历史数据中自主学习买卖时机,构建逻辑自洽的交易策略,助力量化研究。

2025-12-14 19:19:34 1198

原创 DeepSeek-R1 与 OpenAI o3 的启示:Test-Time Compute 技术不再迷信参数堆叠

2025年,AI告别“参数内卷”,迎来Test-Time Compute范式革命。模型不再依赖训练时的“烘焙”智能,而是通过推理阶段的思考、验证与优化,在数学、逻辑等任务中实现质的飞跃。DeepSeek-R1与OpenAI o3证明:让小模型“多想一会儿”,效果远超盲目堆参数。Best-of-N+验证机制让普通开发者也能复现高精度推理,算力成本可控。未来AI产品核心不再是模型大小,而是可配置的“Inference Budget”。

2025-12-13 19:42:14 804

原创 PyCausalSim:基于模拟的因果发现的Python框架

PyCausalSim 是一个基于模拟的 Python 因果推断框架,用于从数据中挖掘和验证因果关系。它支持因果结构发现、反事实模拟、A/B测试分析、营销归因与Uplift建模,帮助识别真实驱动因素,超越相关性分析,为业务决策提供可靠因果证据。

2025-12-12 20:54:27 1330

原创 机器学习超参数调优:十个实用的贝叶斯优化(Bayesian Optimization)进阶技巧

贝叶斯优化虽强大,但直接使用常面临收敛慢、计算贵等问题。本文总结十大实战技巧:引入先验加速冷启动,动态调整采集函数打破平台期,对数变换处理量级差异,避免超-超参数过拟合,成本感知抑制资源浪费,混合随机搜索提升鲁棒性,并行化利用多GPU,正确编码类别变量,约束无效区域,以及集成代理模型降方差。结合这些策略,让BO更智能、高效,真正发挥超参调优潜力。

2025-12-11 20:47:38 1262 1

原创 别只会One-Hot了!20种分类编码技巧让你的特征工程更专业

分类变量需编码为数字才能被模型处理。本文详解20种编码方法,从基础的独热、序数编码到高级的目标编码、CatBoost、WOE等,涵盖适用场景与代码示例,助你提升模型性能,避免泄露与过拟合,是特征工程中不可或缺的实用指南。

2025-12-10 21:44:35 958

原创 LMCache:基于KV缓存复用的LLM推理优化方案

LMCache推出KV缓存持久化方案,显著优化大模型推理首Token延迟(TTFT)。通过将KV缓存存储至GPU、CPU或磁盘,实现跨请求复用,支持任意位置文本匹配,与vLLM深度集成,多轮对话、RAG场景提速3-10倍,降低硬件压力,提升吞吐。开源支持Linux/NVIDIA,正拓展AMD及更多生态支持。

2025-12-09 19:21:08 915

原创 PyTorch推理扩展实战:用Ray Data轻松实现多机多卡并行

单机PyTorch推理难以应对海量数据,内存、GPU利用率、I/O成瓶颈。Ray Data提供轻量方案,仅需微调代码,即可将原有推理逻辑无缝扩展至分布式,支持自动批处理、多机并行、容错与云存储集成,大幅提升吞吐效率,轻松应对百万级图像处理。

2025-12-08 21:42:09 1236

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除