- 博客(127)
- 收藏
- 关注
原创 Loop Engineering:从提示词工程师到 AI 系统架构师
Loop Engineering:AI 系统架构的新范式 本文提出AI编程正经历第三次革命——从提示词工程(Prompt Engineering)到循环工程(Loop Engineering)的转变。核心在于设计能自主运行的闭环系统,而非单次交互的AI指令。关键要点: 范式演进:从单次提示优化→单任务推理循环→跨任务自主系统架构,开发者角色从提示词工程师转变为AI系统架构师。 核心架构: 六要素闭环:调度机制、工作树隔离、技能复用、工具链连接、对抗验证、状态持久化 双层循环模型:内循环(ReAct单任务执行
2026-06-23 15:27:53
319
原创 Imbalanced Learning
类别不平衡(Class Imbalance):数据集中各类别样本数量差距悬殊。常见于欺诈检测、医疗诊断、异常检测等场景。准确率(Accuracy)失效——多数类占 99%,全猜多数类也有 99% 准确率模型偏向多数类,少数类(正类)几乎学不到信号交叉熵损失被多数类主导,梯度更新忽略少数类。
2026-06-20 23:38:11
261
原创 2026 大模型 API 定价全景图:DeepSeek、豆包、Qwen、GLM、MiniMax、Kimi、Claude、Gemini、GPT 谁最便宜?
随着大模型竞争进入"成本大战"阶段,本文汇总了国内外主流AI模型的API定价策略。国产模型中,DeepSeek V4系列性价比突出,特别是缓存命中场景下输入成本低至0.02元/百万Tokens;字节豆包采用上下文长度分档计费,适合不同规模应用;阿里通义和智谱GLM在长上下文和企业场景有优势。国际方面,Anthropic Claude的Prompt Cache商业化最成熟,提供多级缓存计费;Google Gemini和OpenAI GPT系列则按不同模型版本和上下文长度差异化定价。整体来看,企业选型需综合考虑
2026-06-04 12:37:20
1642
原创 Anthropic Agent最佳实践系列二: Agent系统测试
文章摘要: 本文探讨了AI Agent评估(eval)的重要性与方法,指出Agent系统的稳定性与可靠性高度依赖系统化的评估框架。相比传统单轮LLM评估,Agent需追踪多轮执行轨迹,综合判断过程与结果(如数据库状态、文件修改等)。Anthropic提出了一套工程化评估体系,包含任务(Task)、执行记录(Transcript)、评分器(Grader)等核心组件,强调需结合代码测试、模型评分和人工抽检。文中以代码Agent(如SWE-bench)和对话Agent(如τ2-Bench)为例,说明如何通过多维度
2026-05-31 12:53:55
484
原创 ChatGPT、Claude 和 Gemini 的网页端聊天历史是怎么处理的?
AI 会话上下文管理机制解析 大模型产品处理长对话时并非简单存储全部历史记录,而是采用动态上下文管理策略。核心机制包括: 模型本身是无状态的,每次请求需重新构造上下文输入 上下文窗口有限,需平衡系统指令、工具结果、历史对话等内容 短对话通常保留完整上下文,长对话则采用多种优化策略: 裁剪早期内容 摘要压缩关键信息 检索相关历史片段 挂载长期记忆 要求开启新会话 主流产品实现差异: ChatGPT:动态上下文+记忆+历史引用 Claude:强长上下文能力但仍会压缩超长会话 Gemini:原生支持超长上下文+缓
2026-05-26 10:09:25
603
原创 GitLab CI|CD 配置笔记
本文详细介绍了GitLab Runner v18.x版本的安装与注册流程。首先指导用户下载适合系统架构的安装包并进行命令行安装,然后通过交互式命令完成Runner注册,包括填写GitLab实例URL、注册Token、描述信息等关键参数。文章特别解析了注册过程中出现的Deprecated警告,说明其不影响当前版本使用,并解释了选择Shell执行器的优缺点。最后验证Runner状态并确认注册成功。整个过程配有详细日志和截图说明,帮助用户快速完成CI/CD线下执行机的配置。
2026-05-21 17:29:14
526
原创 除了Post-Train,我们还能对大模型做什么
开源大模型微调面临"灾难性遗忘"问题,李宏毅教授提出三大前沿解决方案:1)模型编辑(Model Editing),通过精准手术式修改特定参数,实现知识更新和隐私遗忘;2)模型融合(Model Merging),无需训练直接合并多个模型参数,快速获得多功能模型但存在逻辑冲突风险;3)测试时训练(Test-Time Training),在推理时动态更新参数,采用快慢更新机制和自动重置保障稳定性。这些方法突破了传统微调的局限,为大模型持续进化提供了多样化路径。
2026-05-21 13:36:04
351
原创 ReAct 智能体的失败处理与改进机制:从 Demo 到工业级 Agent 的关键一步
摘要: 工业级智能体系统的核心在于将ReAct框架(推理→行动→观察循环)与鲁棒性机制结合,以应对工具调用失败、参数错误、任务漂移等实际问题。关键机制包括:1)最大步数限制防止无限循环;2)工具调用超时与结构化重试策略;3)参数Schema校验确保输入合规;4)标准化Observation反馈;5)循环检测避免重复调用;6)状态机跟踪原始目标防偏离。这些机制共同构成执行控制层,使大模型专注于决策,系统负责边界控制与错误处理,从而提升智能体在真实场景中的稳定性与可靠性。
2026-05-19 19:26:59
557
原创 Anthropic Agent最佳实践系列一: Agent 架构入门
文章摘要:本文探讨了构建高效LLM智能体的关键原则与实践经验。研究表明,简单可组合的模式比复杂框架更有效。文章区分了工作流(预定义流程)与智能体(自主决策系统)的适用场景,建议仅在需要高度灵活性时采用智能体。介绍了多种工作流模式(提示链、任务路由、并行处理等)和智能体的核心架构,强调工具设计清晰性和模型友好性的重要性。最佳实践包括优先使用简单方案、理解底层机制、设置防护措施等,并以代码智能体为例展示了实际应用场景。
2026-05-09 12:52:11
459
原创 KDD Cup 2026 腾讯算法广告大赛:UNI-REC-PCVRHyFormer 源码深度解读
一个统一序列建模与非序列特征交叉的工业级推荐模型 baseline,值得每一位推荐系统工程师精读。腾讯给出的 baseline——,用约 1800 行高质量 Python 代码给出了一个答案。本文逐文件拆解这个 baseline,从数据管道到模型架构到训练策略,力求说清每一处设计意图。
2026-05-02 13:35:08
1141
原创 KDD Cup 2026 腾讯算法广告大赛赛题解读: UNI-REC (统一序列建模与特征交叉)
KDD Cup 2026推荐系统赛道聚焦特征交叉模型与序列模型的结构性融合问题。赛事基于腾讯广告真实日志数据,包含120列用户和物品特征,特别设计了用户离散特征与连续特征的对齐结构,为统一建模提供天然切入点。评估采用AUC指标并设置严格延迟约束,要求参赛者在精度和效率间取得平衡。除常规排名外,还设立了两个各4.5万美元的创新奖,分别奖励统一建模块设计和扩展规律研究。总奖金达88.5万美元,技术方向建议关注统一tokenization方案、可堆叠backbone设计及延迟优化策略。该赛事旨在推动推荐系统突破现
2026-05-02 00:27:59
1150
原创 Claude Code 接入飞书 CLI:让 AI 真正帮你干活
本文介绍了如何将Claude Code接入飞书办公平台的方法。首先需要安装Node.js环境和飞书CLI工具,通过npm全局安装@larksuite/cli并配置初始化。接着完成OAuth授权登录,并根据需要添加不同功能的权限范围。重点展示了Claude Code与飞书CLI的深度整合,用户可以直接通过自然语言指令操作飞书文档、日程等功能,无需手动切换工具。虽然存在权限管理较繁琐的缺点,但这种AI+CLI的模式大幅提升了办公效率,展现了智能化办公的新可能。文章提供了详细的安装配置步骤和实际应用示例,为想要尝
2026-05-01 22:54:58
1414
原创 大模型基础123-位置编码
百万 token 上下文已经是 SoTA 大模型的标配 —— Gemini 2.5 支持 1M-2M,GPT-5 / Claude 4 支持 1M,Llama 4 Scout 甚至号称 10M。这一节梳理一下他们到底用了什么技术,和上面笔记里的内容什么关系。
2026-04-25 22:58:42
424
原创 AI Agent 核心技术:Context Engineering 基本概念解说
本文深入探讨了大语言模型(LLM)发展中的关键技术——上下文工程(Context Engineering)。文章指出,AI Agent作为语言模型与现实世界的桥梁,需要解决两大核心挑战:模型缺乏长期记忆和上下文窗口受限问题。通过四种核心操作(上下文压缩、记忆系统、子代理机制和源头控制),AI Agent能够智能管理输入信息,防止上下文爆炸。文章特别提出"Agentic Context Engineering"概念,展望未来AI Agent将具备自主管理上下文的能力,包括动态维护知识库和递
2026-04-16 10:19:32
425
原创 Harness Enginner记录-驾驭AI Agent之术
摘要:Harness Engineering是AI领域新兴的控制大模型的方法论,旨在通过外部框架规范AI行为。台大李弘毅教授将其分为三个层面:(1)认知框架控制,通过自然语言设定身份和规则;(2)工具控制,限制AI能力边界;(3)工作流程控制,规范行为模式。核心思想是减少模型不确定性,通过反馈循环(Ralph Loop)实现自我进化。研究显示,正向引导能提升AI表现,而负面反馈会降低性能。该方法由OpenAI和Anthropic等公司推动,代表大模型应用从单轮交互向自主解决问题的演进。
2026-04-16 00:02:40
566
原创 Claude Code使用:如何写一个好的 CLAUDE.md
CLAUDE.md是用于规范Claude行为的核心文档,应聚焦于项目关键信息:构建测试流程、架构边界、编码规范和安全限制。避免放入背景介绍或可推断的内容。建议采用模块化结构,包含构建指令、架构约束、编码规范、禁止事项和验证要求。通过让Claude自行更新文档来持续优化,并定期review过时条目。项目实践中可配合环境检查工具和按文件类型触发的hooks,建立包含全局约束、路径约束和工作流的多层级规范体系,但需避免文档膨胀、内容过时或约束过度等常见问题。
2026-04-10 11:22:55
611
原创 Claude Code:架构、治理与工程实践
本文深入解析Claude Code系统的六层架构与核心机制,重点探讨上下文管理、组件设计和工程实践。系统采用代理循环机制(收集→行动→验证),而非简单问答模式。通过分层分析揭示了上下文污染的根源——固定开销占用12.5%容量,并提出分层加载策略(常驻/路径/按需/隔离)。文章详细区分了Tool/Skill/Subagent等组件的设计边界,强调Skill应实现渐进式信息披露。针对上下文噪声问题,推荐RTK工具自动过滤命令输出,并给出压缩优先级策略。最后提出Plan Mode的双阶段工作法,通过探索-执行分离
2026-04-10 11:16:03
652
原创 从排序到生成:腾讯广告算法大赛 2025 baseline解读
腾讯广告算法大赛提出"生成式推荐"新范式,将推荐系统视为序列生成任务。用户行为序列被token化,推荐转化为next-token预测,实现端到端统一建模。比赛提供百万至千万级工业数据集,包含多模态广告特征(文本/图像embedding)和用户行为序列。Baseline采用Transformer架构建模用户历史序列,通过ANN检索实现推荐,展现了"生成式建模+检索式推理"的工业实践。核心创新在于将推荐系统LLM化,用语义理解替代传统ID驱动,为推荐领域带来范式变革。
2026-04-09 11:55:27
1186
原创 AI动画短片生产全流程
视频创作全流程AI化指南(150字摘要) 本文系统介绍了利用AI工具制作短视频的完整流程:1)剧本生成阶段需构建2分钟内可执行的故事骨架,注重画面可实现性;2)分镜头脚本需表格化呈现,控制单镜头3-6秒,总镜头8-15个;3)素材生成阶段强调角色一致性,通过三视图保证人物设定稳定;4)视频生成推荐使用即梦/可灵工具,保持风格统一;5)后期剪辑遵循五步流程,从素材排序到节奏优化。全文提供具体prompt模板和工具推荐,突出"画面可实现性"和"叙事连贯性"两大核心原则,适
2026-03-29 14:04:35
667
原创 GPU 部署ppocr记录
本文介绍了PaddleOCR服务的部署过程,主要包含环境安装和服务实现两部分。在环境安装阶段,通过Docker方式安装PaddlePaddle深度学习框架和PaddleOCR工具包。服务实现部分采用FastAPI构建RESTful API,支持高并发OCR识别功能。服务配置了线程池、信号量等机制控制并发量,并优化了PaddleOCR参数设置(关闭文档方向分类等非必要功能以提高性能)。该服务接受base64编码的图片输入,返回OCR识别结果文本及处理耗时,适用于各类文字识别场景。
2026-03-08 11:37:21
440
原创 大模型注意力机制:从数学原理到资源优化框架
本文系统梳理了大模型中的注意力机制及其优化方向。首先解释了注意力机制如何解决传统序列模型的信息瓶颈问题,通过动态加权聚合实现长距离依赖建模。详细介绍了注意力计算的基本公式(Scaled Dot-Product Attention)及其多头扩展形式(Multi-Head Attention)。重点分析了当前三大优化方向:降低计算复杂度(如稀疏注意力、线性注意力)、减少显存占用(如FlashAttention、KV Cache)以及支持更长上下文(如MQA/GQA)。其中FlashAttention通过分块计算
2026-02-17 23:04:46
806
原创 企业级大模型微调(Fine-tuning)策略
摘要:通用大模型在垂直业务场景中存在"话术官僚化""逻辑浅表化"和"事实幻觉"等局限,单纯依赖Prompt工程成本高且不可靠。微调技术的本质是重塑模型的思维模式,通过修正概率分布和内化专业思维,可显著提升模型性能。数据工程是微调成功的关键,需要注重数据多样性、复杂性和分布平衡,采用人机协作方式生成高质量数据并持续优化。建议通过构建黄金测试集和数据监控形成闭环,实现模型的持续进化。
2026-02-13 21:50:58
571
原创 LangGraph速记
State seems like the thread data that I’ve been familiar with,can be persisted across time and in particular across failures of nodes,是一个流动的状态数据。运行到 interrupt 时,LangGraph 会暂停等待外部输入(UI/接口/你的控制台逻辑),这就是 HITL 的核心。进一步的,可以使用map-reduce。它不是一个函数,也不是一个类,而是。
2026-02-09 11:33:57
630
原创 Langchain学习笔记一 -基础模块以及架构概览
LangChain总体架构分为5层:模型层(L1)对接各类LLM模型;提示层(L2)处理Prompt模板化;运行层(L3)通过Runnable实现流程编排;智能层(L4)提供Agent/Tools实现工具调用;记忆层(L5)管理长期记忆和上下文。核心模块包括ChatPromptTemplate(L2)、RunnableSequence(L3)、Tool Calling Agent(L4)等,支持从输入到输出的完整AI应用开发流程。其中AgentExecutor负责循环执行工具调用,OutputParser将
2026-02-05 13:30:20
425
转载 人生没有两全之事,不要美化那条你未选择的路
人生没有绝对正确的选择,每条路都有遗憾。我们常幻想未选之路会更美好,但不过是给想象戴上滤镜。成年人的通透在于:不美化放弃的选项,不为过去后悔。当前路难行时,应勇敢跨越而非幻想"如果当初"。买了就不比价,选了就别回头。余生还长,只需义无反顾地走下去,风来迎风,浪来踏浪。人生这道选择题,本就没有百分百的圆满。
2026-02-05 12:55:53
74
原创 从冷启动到爆品:AliBoost 如何破解推荐系统“富者愈富”困局
摘要:阿里提出AliBoost框架解决推荐系统中新商品冷启动难题。该方案通过三级助推架构(分级曝光、动态晋级淘汰)、Stacking冷启动CTR预测模型(融合多源数据)和商品导向竞价机制,打破"马太效应"循环。实验显示,被助推180天的商品GMV提升超70%,全链路指标同步改善,实现生态与商业价值的协同优化。该研究为平台内容多样性提供了创新解决方案。(149字)
2026-02-04 18:51:00
724
原创 从 OCR 到 Agentic Document Extraction:一次“产品味”课程带来的真正启发
你完全可以不认同这门课的产品导向当文档越来越复杂,仅靠 OCR + 一次 LLM 调用,真的够吗?Agentic Document Extraction 给出的不是唯一答案,但它指向了一个清晰方向。理解这个方向,然后用自己可控的方式去逼近它。
2026-01-22 14:24:39
645
原创 macOS 使用 Codex CLI 登录报错 403 的问题分析与解决方案(Issue #2414)
macOS 上 Codex CLI 的 OAuth 登录存在已知缺陷(Issue #2414),403 不是你的问题,直接使用或 API Key 才是正确解法。
2026-01-21 14:49:51
3513
3
原创 End-To-End之于推荐: Meta GRs & HSTU 生成式推荐革命之作
Meta推出首个端到端生成式推荐系统GR,通过将异构特征统一为时间序列,实现12%业务指标提升。创新点在于:1)将用户行为、属性等异构特征转化为结构化时间序列输入;2)分为主序列(用户-item交互)和辅助序列(缓慢变化特征)两类;3)通过Transformer直接建模序列模式,摒弃传统数值特征。该方法突破传统推荐系统特征异构的瓶颈,首次验证LLM在推荐领域的扩展定律。
2025-12-31 12:33:53
1361
原创 不同 QPS 场景下的服务部署架构指南(实战经验总结)
本文系统介绍了后端系统处理高并发请求的关键指标QPS及其应用实践。首先明确QPS的计算方法,区分QPS与并发量的概念差异,并给出行业通用的DAU与并发量映射关系。针对不同QPS量级,提供了详细的部署架构建议:从QPS≤100的单机简单部署,到QPS 5000+的全国级分布式架构,重点分析了500-2000QPS这一典型场景的优化策略。特别针对推荐系统这类IO密集型服务,给出了单机安全QPS参考值(4C机器200-400,8C机器400-800),并总结出"目标QPS÷单机安全QPS≈所需机器数量&
2025-12-11 11:17:19
1097
原创 可灵图片生成通用使用指南
可以借助大模型直接来写(本人使用的是chagpt pro,其他没测试过),只需要告诉大模型大概,如果不满意,把生成图片和不满意的地方发给大模型,让大模型修改,很高效。例如我要把这棵树改成一颗小树,直接局部重绘你会发现还是一颗大树,但是删除再生成就可以。先用用消除笔去掉,然后再局部重绘要OK的多,直接局部重绘失败概率极高。还是PS之类的工具靠谱,推荐,AI自动帮忙抠,而且免费。用消除笔比局部重绘要OK的多。想生成背景为空的一个内容元素。
2025-12-05 14:30:09
346
原创 常用 Linux 命令大全(文件、网络、时间、进程、数据库、工具全覆盖)
本文整理了Linux系统操作中最常用的命令,涵盖文件处理、VIM操作、网络管理、系统监控等场景。主要包括:文件拆分/合并(split/cat)、压缩解压(tar/zip)、远程传输(scp/sftp)、批量查找替换(find/sed)、vim快捷键、定时任务(crontab)、网络工具(curl/iptables)、进程管理(lsof/kill)、磁盘检查(df)、Docker操作等。每个命令均附带实用示例和参数说明,特别适合作为日常工作的速查手册,能有效提升Linux环境下的操作效率。
2025-11-19 20:53:38
1991
原创 大模型 + 字形理解:Glyph-OCR 带来的 OCR 新范式
摘要:GlyPh-OCR提出了一种创新的字形识别方法,通过将字符视觉信息离散化为glyph tokens,使模型能真正"看懂"字形结构。其核心流程包括字符检测、切割、字形编码和语言模型推理三大模块,形成模块化OCR pipeline。相比传统OCR,GlyPh-OCR在模糊文字、异体字识别方面表现优异,特别适合古籍、低清图像等场景。虽然不具备文档级理解能力,但解决了字形识别的本源问题,与DeepSeek-OCR等端到端模型形成互补。该技术强调字形理解而非单纯文本推断,为OCR领域提供了新
2025-11-19 20:24:55
854
原创 DeepSeek-OCR:10倍光学压缩新范式
DeepSeek-OCR 提出了一种创新的视觉-文本压缩架构,通过第一性原理探索人类阅读本质,将图像作为输入实现"一目十行"的效果。其核心架构包含:1)DeepEncoder,由SAM-base(局部注意力)、16×Token Compressor(CNN压缩)和CLIP-Large(全局语义)组成,可将高分辨率文档压缩为64-800视觉tokens;2)DeepSeek-3B-MoE Decoder,通过自回归方式从压缩视觉tokens恢复文本、布局等结构化信息。该模型实现了10×压缩
2025-11-19 11:36:51
858
原创 特征交叉-XdeepFM&CIN
CIN 是一种基于 outer product 的显式高阶交互网络,通过卷积权重实现维度压缩,表达能力强于 DCN,可看作显式 Polynomial 交叉的升级版。它在工业界(广告、推荐)已有实际落地,与 FM、DeepFM、DCN 一起构成现代 CTR 模型的主干体系。2. tensorflow实现(论文git)3. torch实现4. 读了那么多CTR论文, 真正有效的又有几个呢?
2025-11-18 18:25:32
604
原创 一文说明推荐系统特征交叉方法
推荐系统排序模型的特征交叉方法主要分为非参数和参数式两类。非参数方法包括笛卡尔积、内积/外积和哈达玛积,其中内积最为常用。参数式方法包括FM(显式二阶交叉)、DNN(隐式高阶交叉)、DCN(显式多阶交叉)、Bilinear Cross(双线性交互)、CAN(动态参数交叉)、PNN(乘积交互)和CIN(显式高阶压缩交互)。此外,样本维度的特征交叉如MaskNet通过全局mask实现交互。这些方法在推荐系统中各有优劣,FM和DNN应用最广泛,而DCN、CIN等显式高阶交叉方法在特定场景效果显著。特征交叉技术的演
2025-11-18 18:16:41
951
原创 End-To-End之于推荐-快手OneRec系列三(OneRec-Think)
快手OneRec系列引入大语言模型推理能力,通过COT(Chain of Thought)技术提升推荐效果。该框架包含三个核心模块:Itemic Alignment使LLM理解Item语义;Reasoning Activation让模型先思考再推荐;Reasoning Enhancement捕获用户偏好多样性。实验使用1.29%流量测试,APP停留时长提升0.159%。关键技术包括多任务预训练实现ID与文本对齐、基于上下文的推理激活等,使推荐系统具备可解释性。该方法将推荐从黑盒预测转变为可推理过程,在保持大
2025-10-28 22:30:59
1314
原创 LLM之于推荐-RecGPT(阿里关于大模型召回的实践)
阿里提出基于大语言模型的推荐系统RecGPT,通过三塔模型架构实现召回效果提升。系统包含用户兴趣挖掘、商品标签预测和推荐归因三大模块,利用大模型能力将用户行为和属性转化为结构化兴趣标签。创新点包括:1)引入Tag塔学习语义相关性;2)分阶段生成用户兴趣和商品标签;3)采用行为序列压缩和模型微调优化方案。实验表明CTR等核心指标提升超5%,并验证了DeepSeek等开源模型的有效性。系统还设计了LLM自我评估机制,通过人工-模型协同实现持续优化。该方案显著提升了推荐系统在召回阶段的效果和多样性。
2025-10-22 12:04:24
1374
原创 推荐&投放面试宝典
AUC/PR、NDCG/HitRate、回归 RMSE/MAE、业务指标(CTR/CVR/GMV/时长)。:L1 稀疏、L2 防过拟合、Dropout/早停;
2025-10-22 09:25:26
781
原创 深度强化学习之123-概念梳理
摘要: 马尔可夫决策过程(MDP)是强化学习的核心数学模型,由五元组(状态空间、动作空间、状态转移概率、奖励函数、折扣因子)构成。MDP描述智能体在环境中通过策略π选择动作,产生轨迹并获得奖励的过程,其随机性体现在环境转移、策略选择和奖励噪声上。强化学习的目标是找到最优策略π*,最大化长期折扣回报,通过价值函数(V函数和Q函数)评估状态和动作的优劣。最终,MDP为强化学习提供了形式化框架,帮助智能体通过优化策略实现目标。
2025-10-20 10:33:12
730
【人工智能开发】基于LangGraph的状态图模型构建:支持检查点与人机协同的长周期LLM应用系统设计
2026-02-28
【人工智能应用】基于Claude技能系统的自动化工作流构建:从设计到部署的全流程指南
2026-02-23
基于OeRec架的端到端生成模型优化:多模语义理解与高效推理统一基座设计
2025-10-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅