- 博客(61)
- 收藏
- 关注
原创 020、向量库与索引设计实战:知识库系统不是“存进去就行”,检索层该怎么真正搭稳
那下一步是不是只要把它们塞进向量库,RAG 检索层就算差不多搭完了?这恰恰是很多知识库项目最容易掉进去的一个误区。因为在真实项目里,向量库并不是一个“只负责存一下 embedding”的中性容器。这篇文章,我们就继续沿着企业制度知识库这个主线,专门讲向量库与索引这一层该怎么搭。
2026-04-18 14:13:43
90
原创 019、 向量库与索引设计实战:知识库系统不能只是存进去就可以,检索层怎样才能真正地站稳脚跟
上一篇我们讲的是:知识库资料在入库之前,到底要怎么清洗、整理、结构化以及做入库前的检查。那么下一步就是把它们塞进向量库,RAG检索层就差不多搭好了?这就是很多知识库项目容易犯的一个错误。因为在真实的项目中,向量库并不是一个只用来存放embedding的无害容器。也就是说,知识库工程到了这个地步的时候问题就不再是:可以存进去吗?而是:存进去之后,检索层能不能长久地稳定运行?这篇文章,我们继续沿着企业制度知识库这条主线来谈向量库和索引怎样搭建。
2026-04-18 14:11:26
261
原创 019、知识库数据准备实战:清洗、切分、结构化处理决定了RAG的下限
上一篇我们讲的是:RAG系统不能依靠直觉去优化,而要形成自己的评估和迭代闭环。这些方向当然也值得一看。但是做过了几轮真正的排障之后,你很快就会发现一个更底层的事实:很多RAG质量问题并不是从检索开始的,而是早在“资料进入系统之前”就已经埋下了。这也是很多人心中容易忽视的一个环节。由于“知识库数据准备”没有像Prompt一样直观,也没有模型调用那么突出的存在感,并且不像Agent,Memory这样的概念听起来很高级。因此很多项目一开始都会下意识地认为:文档先放进去向量库里,以后不行再调。
2026-04-18 14:01:45
137
原创 017、RAG质量优化实战:从召回、切分、Prompt到输出,知识库问答为什么总是差最后一公里
但是当你把这些东西都搭起来之后,马上就会有一个更现实的问题出现:为什么系统架子搭好了之后,回答的效果还是不稳定?一切都很完美。当然会有些影响,但是大多数项目早期的情况是:RAG没有做到,每一层都差一点点最后累积起来就成了“总是差最后一公里”。本文将继续沿着企业制度知识库问答这条主线,进行一次实战排障式的拆解。不再只讲“RAG有哪些组件”,而是直接回答一个更实际的问题:为什么知识库问答系统明明搭建好了,但是仍然不好用?这些问题到底要从哪里开始排查、优化呢?
2026-04-18 13:45:35
145
原创 016、LangChain进阶:Memory、Retriever与工程化组织,才是你真正该补的部分
上一篇我们讲的是:如何把LangChain放进RAG,怎样真正地将知识库问答组织成一条可以维护的工程链路。但是我要先做一个很重要的判断:学Memory和Retriever,并不是为了多背几个API,而是用来补充轮次的应用和工程组织中缺失的关键边界。于是就觉得自己差不多已经入门了。但是只要做一个稍微像样的知识库系统,比如企业制度问答助手、内部文档问答助手、客服知识助手等,很快就会发现:真正让系统从Demo走向可持续迭代的,并不是会不会调模型的问题,而是能不能处理好“会话上下文”以及“检索边界”。
2026-04-17 22:25:51
117
原创 015、LangChain + RAG实战:把知识库问答系统真正串成一条可维护的工程链路
Chain但是如果你真的开始做知识库项目,很快就会发现:**掌握几个组件,并不等于已经把RAG系统组织好了。因为很多人做RAG的真实状态,并不是“不会”,而是“会一点,但是越做越乱”。好像也没有几步的样子。于是就有很多人直接开始动手了:先查向量库,然后拼接出一个很长的字符串,再调用模型进行处理,并把结果返回。第一次跑通的时候成就感很强这时候你就会突然发现:RAG真正难的地方,并不是检索和生成这两个字,而是如何把这条链路组织成一个可以持续扩展、维护更新并且不断演进的系统。
2026-04-17 22:17:30
147
原创 014、LangChain 入门到底先学什么?用一个知识库问答项目讲清 PromptTemplate、Chain 和 Output Parser
上一篇我们刚刚讲完,为什么很多做AI应用的人到了后面都会遇到LangChain。这也是很多人最容易被劝退的地方。一看到LangChain就会冒出一堆概念:Prompt、Chain、Runnable、Retriever、Memory、Agent、Tool,LCEL、Graph……名词很多,文章也多得很,但是初学者最常有的感觉就是:每个词好像都懂一点,但真正要自己动手的时候就不知道从哪里开始拼了。
2026-04-17 22:11:14
111
原创 013、为什么你迟早都要学 LangChain:从零散调用到 AI 应用编排的关键一步
很多人刚开始学 AI 应用开发时,会有一种很自然的想法:模型接口我已经会调了,Prompt 我也能写,前端页面我也能接,那是不是已经差不多了?因为真正的 AI 应用,往往不是“发一个 prompt,收一个回答”这么简单。它背后经常会同时出现:Prompt 模板、上下文拼接、结构化输出、知识检索、会话记忆、工具调用、结果解析、链路组合。你一开始也许还能手写,但项目一变复杂,代码很快就会变得零散、重复、难维护。这时候,LangChain 的价值才会真正出现。
2026-04-16 22:25:51
106
原创 012、第一个真正像样的 AI 项目:从 0 到 1 做一个知识库问答系统,终于不再只是聊天框 Demo
很多人学 AI 应用开发,第一步往往是做一个聊天页面。页面能发消息,后端能调模型,回答也能正常返回。乍一看,像是已经入门了。因为企业真正愿意买单的,通常不是“一个可以聊天的输入框”,而是“一个能接入真实业务资料、能回答具体问题、能提升效率的系统”。你会调接口,只能说明你会用模型;你能把文档、检索、问答、引用、前后端流程真正串起来,才更接近 AI 应用工程师的能力。所以这篇文章,我不再带你做“聊天框 + API 调用”这种入门 Demo,而是直接上一个。
2026-04-16 22:25:35
203
原创 011、RAG 质量为什么总不稳定?切块、召回、引用与可信度优化实战
模型是否仍在幻觉引用是否正确展示用户能否感知可信度这个顺序的核心思想是:先保证“资料找对”,再保证“资料排对”,再保证“资料用对”。RAG 质量之所以经常不稳定,不是因为它“天生玄学”,而是因为它本来就不是单点技术,而是一条多环节串联的系统链路。切块是否合理topK是否平衡是否做了重排上下文是否组织清楚是否展示来源引用是否控制了幻觉边界如果你想把一个知识库问答系统从“偶尔答得不错”升级到“整体更稳、更可信”,核心思路不是拼命堆模型,而是顺着链路逐层优化。
2026-04-16 22:22:36
127
原创 10、从文档上传到答案生成:一篇讲透 RAG 系统完整流程
如果你把 RAG 只理解成“接一个向量库”,那你很容易把它做成一个能跑但不好用的半成品。文档解析切块Embedding召回上下文拼接答案生成每一步都不是可有可无的配角,而是在共同决定最终问答质量。RAG 不是单一技术点,而是一整条知识处理流水线。知识库问答答得准不准,往往不是模型一个人的问题,而是整条链路一起决定的结果。你一旦真正看懂这条流程,就会从“会调 AI 接口”升级到“会搭 AI 知识系统”。
2026-04-15 20:32:29
215
原创 009、RAG 到底是什么?为什么知识库问答会成为 AI 应用落地的关键能力
很多人刚开始做 AI 应用时,都会先有一个很自然的想法:既然大模型已经这么强了,那我是不是只要把问题发给模型,它就能直接答出来?这个想法在一些通用问题上,确实经常成立。比如你问它 React 是什么、TypeScript 有什么优势、前端性能优化有哪些思路,它通常都能答得像模像样。也正因为如此,RAG 才会成为知识库问答、文档问答、企业智能助手这类项目里最关键的一层能力。这篇文章我们就不用论文语言,而是站在。
2026-04-15 20:32:10
113
原创 008、别再只做聊天框了:为什么 Chat Demo 不是 AI 应用开发的终点
这两年,很多开发者一学 AI 应用开发,第一件事就是做聊天框。页面上放一个输入框,接一个模型接口,消息列表往上一渲染,左边用户提问,右边 AI 回答。但现实往往很快就会给你上一课。因为真正的业务系统不会只满足于“能聊两句”,它更在意的是:这个系统能不能完成任务、能不能承接状态、能不能接入流程、能不能让结果继续被消费。这篇文章我们就来把这个问题彻底讲清楚:为什么 Chat Demo 很重要,但它只是起点;为什么真正的 AI 应用,最终一定会走向任务化、结构化、流程化和业务闭环。
2026-04-15 20:31:52
171
原创 040、调试手记:从模型部署崩溃看AI工程师的成长路径
那个CUDA error 700的问题,最终通过重写预处理流水线解决。核心改动其实不大,但需要理解从数据加载到内核执行的完整路径。这种能力不会来自论文阅读,只能从一次次深夜调试中积累。AI工程化正在进入深水区,未来两年,懂得把算法变成稳定服务的人,会比只会刷榜的调参师更有市场。这不是说算法不重要,而是说工程能力成了瓶颈。下次遇到部署问题,别急着搜索错误代码,先画张数据流图——很多时候,答案就在你忽略的系统边界处。(凌晨三点,监控显示服务平稳运行。保存这篇笔记,关机。明天还有新的模型要部署,新的坑要踩。
2026-04-15 20:27:31
324
原创 006、Prompt 工程入门:从会提问到会设计,前端开发者真正该掌握的提示词能力
输入是什么?用户原文、文档片段、表单数据?输出是什么?Markdown、JSON、富文本、卡片数据?哪些字段必须稳定存在?
2026-04-14 20:49:05
143
原创 005、大模型基础:AI 应用开发者真正需要懂什么,才不至于只会调接口
很多开发者在接触 AI 应用开发时,最开始都会有一种错觉:只要我会调用模型接口,会写几句 Prompt,会把结果展示到页面上,我是不是就已经算会做 AI 应用了?短期看,这样当然能做出一点东西。你可以很快接一个接口,做一个聊天框,甚至做一个会议总结、文章润色、知识问答的小 Demo。这篇文章我不会从论文角度去讲,也不会带你卷公式。我们只站在。
2026-04-14 20:48:22
157
原创 039、云原生AI:在AWS/Azure/GCP上构建弹性应用
上周深夜被报警叫醒,线上的人脸检测服务P99延迟突然从80ms飙到900ms。登录监控一看,某个GPU节点负载100%,自动扩缩容却迟迟没触发。查了半天发现,是我们自建的K8s GPU调度策略和云厂商的竞价实例回收机制撞车了——节点突然被回收,Pending的Pod卡在调度层,既没触发扩容也没优雅降级。这个坑让我重新审视所谓“云原生AI”到底该怎么落地。
2026-04-14 20:47:16
506
原创 038、性能优化:模型压缩、量化与加速推理
昨天深夜调一个端侧人脸检测模型,帧率死活卡在15fps上不去。硬件是颗中端ARM芯片,算力不算差,但模型前向推理就是慢。打开perf工具一看,90%的时间耗在几个大卷积层上,模型权重32位浮点占着内存带宽,每次推理都在那搬运数据。这场景太典型了——模型精度不错,但部署时被硬件资源卡脖子。今天咱们就聊聊怎么把这脖子给松开。
2026-04-14 20:46:58
535
原创 037、AI应用安全与伦理考量:当模型开始“说谎”时
不是服务崩溃,而是输出结果让人脊背发凉:用户输入“我觉得生活很压抑”,模型返回“情绪标签:极度兴奋,建议推送狂欢派对广告”。这不是技术故障,是模型在“胡说八道”,而且说得理直气壮。我们的合同现在明确要求:关键决策必须有人工复核环节,且系统要保留完整的决策日志(包括模型版本、输入数据、置信度、备选结果)。上周那个案例,问题出在数据管道的隐蔽角落:数据标注团队为赶进度,将“模糊难判”的样本统一标记为正面情绪。三个月后,模型学会了把所有不确定的情绪都乐观化——这是数据污染导致的伦理偏差,比黑客攻击更难察觉。
2026-04-14 20:46:14
314
原创 004、AI 应用开发全景图:从模型、Prompt、RAG 到 Agent,前端开发者必须看懂的完整链路
这个问题非常典型,而且几乎是所有 AI 初学者都会踩的坑。表面上看,大家缺的是知识;但更深层的问题,其实是缺系统结构感。今天看 Prompt 技巧明天看 RAG 教程后天刷 LangChain 示例再过两天试一个 Agent Demo然后又去看大模型排行榜和各种新框架。
2026-04-13 22:04:08
214
原创 003、为什么前端开发者,是最适合转 AI 应用工程师的一批人?
这两年,很多前端开发者一边在学 AI,一边又在怀疑自己。你可能已经会用 ChatGPT、会写一点 Prompt、会调模型接口,甚至还能快速做一个 AI 聊天页面。但这个“适合”,不是因为前端已经懂 AI,而是因为前端手里早就有很多做 AI 应用最关键的底层能力,只是过去没有被放到 AI 这个语境里重新理解而已。
2026-04-13 22:02:06
155
原创 036、多模态AI应用开发入门
昨晚凌晨两点,我在调试一个看似简单的功能:让AI同时理解用户上传的图片和文字描述,然后生成一段产品推荐。代码跑通了,但结果总是莫名其妙——系统会把猫粮推荐给上传汽车图片的用户。打开日志一看,问题出在特征对齐上:图像特征向量和文本特征向量根本不在同一个语义空间里。这就是典型的多模态开发入门坑:以为把两个模型输出拼接起来就完事了。
2026-04-13 21:55:59
312
原创 035、语音处理基础:语音识别与合成简介
从一段深夜调试说起上周三凌晨两点,我被测试组的紧急电话叫醒:“语音唤醒模块在会议室场景下误触发率飙升到40%”。赶到公司打开日志,发现噪声谱特征在300-500Hz区间出现了异常峰值——原来是新装的中央空调低频共振被麦克风阵列捕捉到了。这个坑让我再次意识到,语音处理从来不是纯算法问题,它始终在物理信号和数字世界之间走钢丝。
2026-04-13 21:55:16
516
原创 034、生成式AI应用开发:Stable Diffusion与AIGC实战手记
一、从一张“破碎”的生成图说起上周在部署Stable Diffusion服务时,遇到一个典型问题:客户端请求生成512x512的人像,返回的图片总是下半截出现扭曲的色块,像是显存不足导致的渲染断层。但监控显示GPU显存占用只有6G/24G,远未打满。这种问题在AIGC应用开发中很常见——表面看资源充足,底层却是计算流与内存管理的错位。排查发现,问题出在VAE解码器的输出张量布局上。
2026-04-13 21:54:25
510
原创 002、AI应用工程师到底做什么?岗位职责、能力模型以及就业前景一起说清楚!
但是问题在于,这个岗位听起来很热,真正看下去的时候很容易越看越迷糊:有的公司将其称为“大模型应用开发”,也有人称其为“Ai产品工程师”或者“Agent开发工程师”。名字很多,但是描述却各不相同。更让人担忧的是,很多前端开发者会有一种错觉:是不是只有会算法、懂训练模型的人,才配得上进入AI方向?是否像我这样掌握React和前端工程化知识的人员最多只能做调用接口的一个外层页面呢?如果你也有类似的问题,这篇文章就是为你写的。
2026-04-12 15:11:17
256
原创 033、自动化机器学习(AutoML)工具与应用:当调参不再是玄学
AutoML不是要取代工程师,而是把我们从重复劳动中解放出来。以前调参像中医把脉,靠经验、靠直觉、靠玄学;现在至少有了个“CT机”帮你扫描参数空间。但诊断病情(理解问题)、制定治疗方案(设计整体架构)、判断预后(业务落地)这些核心工作,依然需要工程师的思考和经验。工具越强大,我们越要清楚:知道在什么时候用什么工具,比单纯会用工具更重要。AutoML现在是我的“第二双眼睛”,但做决策的,始终还是我自己。下篇预告:我们聊聊模型压缩与量化——怎么让这些AutoML生成的大模型,能塞进嵌入式设备里跑起来。
2026-04-12 15:10:17
324
原创 001、专栏介绍:前端人为什么要系统学习AI应用开发,才能真正完成转型
这两年来很多前端开发者的内心都有一种很强的焦虑感:会用ChatGPT、写提示词了,还可以接一些大模型API,并且可以做一个聊天框Demo了,但是你自己心里其实很清楚——这些能力距离“我能独立做一款AI产品”,还差得很远。更实际地说,现在的问题并不是“没有接触过AI”,而是:学了很多AI名词,还是做不出项目;会调用模型接口,还是搭不起业务闭环;做了几个Demo,还写不进简历,拿不到真正有竞争力的机会。这也是我决定写这个专栏的原因。
2026-04-12 14:56:56
268
原创 032、MLOps理念与工具链简介:从一次模型部署事故说起
上周团队里出了个事故:训练集上一个准确率98%的模型,在生产环境里掉到了72%。排查了两天,发现训练时用的数据版本和推理服务加载的数据预处理代码对不上——有人改了预处理逻辑但没更新版本标记,另一个同事用老标记重新训练了模型。这种问题在传统软件工程里早就有成熟方案,但在AI项目里却反复出现。今天我们就聊聊怎么用MLOps的思路和工具链解决这类问题。
2026-04-12 10:36:18
436
原创 031、AI项目全流程实战:从数据收集到模型上线
盯着监控面板上跳动的错误率,咖啡已经凉透——这场景太熟悉了,又是一个典型的“实验室模型”到“生产模型”的跳水案例。今天我们就沿着这个真实问题,拆解AI项目从数据到上线的完整链条,这些坑你迟早要踩,不如先看看别人怎么填的。但上个月我们部署一个产线缺陷检测系统,最后用的还是ResNet50——不是Transformer不好,是产线工控机只有4G内存,还要留2G给其他系统服务。实际一清洗,发现30%图片是同一台设备在不同光线下重复拍摄,还有5%根本是办公室盆栽的照片混了进去。硬件会老化,流量有峰值,留足缓冲。
2026-04-12 10:22:47
215
原创 030、AI应用前端展示:Streamlit快速构建交互式Web应用
传统AI项目的前后端分离太沉重。模型工程师调参优化已经够累,还要学JavaScript、写API接口、处理跨域请求。用Python脚本直接生成Web应用。你的数据处理逻辑、模型推理代码几乎不用改,加点UI组件就能交互。看个最直接的例子。# 传统测试代码# 侧边栏上传控件uploaded_file = st.sidebar.file_uploader("传张图片试试", type=['jpg', 'png'])
2026-04-11 20:27:38
284
原创 029、模型监控、日志与性能评估:别让模型在线上裸奔
上周深夜收到告警,线上推荐服务的响应延迟突然从50ms飙到800ms。登录服务器一看,CPU使用率正常,内存也没溢出,模型推理的batch size配置也没变。最后在监控面板的角落里发现:输入特征的长度分布最近一周悄悄从平均256维涨到了1024维——某个上游特征工程服务改了参数没同步通知。。
2026-04-11 20:27:21
272
原创 028、边缘AI与嵌入式部署:TensorFlow Lite/PyTorch Mobile实战手记
模型部署不是流水线终点,而是产品化的起点。把AI塞进小小的嵌入式设备,就像给战斗机装上一颗智慧的大脑——空间有限、环境严苛,但一旦成功,就能在真实战场释放价值。这份在资源限制中寻找最优解的挑战,正是边缘AI最迷人的地方。(本篇基于TensorFlow 2.8+、PyTorch 1.10+环境验证。实际部署请务必测试目标设备的具体环境,ARMv7和ARMv8的优化策略都可能不同。
2026-04-11 20:26:32
444
原创 027、模型服务化:深夜调不通的TorchServe和那个救场的Triton
凌晨两点,屏幕上的日志还在疯狂滚动。第37次尝试启动TorchServe服务,依然卡在“Loading model…”然后超时。同事发来的微信还在闪烁:“客户明天要看演示,模型部署必须搞定。”这场景太熟悉了——模型在本地跑得好好的,一到生产环境就各种水土不服。
2026-04-11 09:33:43
400
原创 026、模型部署入门:ONNX格式与模型优化
昨天深夜调试一个模型部署问题,模型在训练时精度明明有95%,一到推理端直接掉到30%以下。盯着屏幕看了半小时,突然意识到问题所在:训练时用了自动混合精度,但导出模型时忘记设置的参数,导致某些算子转换失败,模型结构都变了样。这种问题在模型部署中太常见了,今天我们就聊聊ONNX这个部署领域的“普通话”标准。
2026-04-11 09:33:05
453
原创 025、AI应用后端开发:FastAPI框架与RESTful API设计
现在Python后端框架选择不少,Flask轻量但生态散,Django重但自带全家桶。FastAPI站在中间那个微妙的位置——它不像Flask那样需要自己拼装各种插件,又比Django更适配现代异步编程。最关键的是,它天生为AI应用设计:自动生成OpenAPI文档、内置数据验证、原生支持async/await。你部署个模型服务,总不能每次改接口都手动更新API文档吧?app = FastAPI(title="模型服务") # 这里title一定要写,文档里显示用text: str。
2026-04-10 20:53:07
361
原创 024、向量数据库与语义检索应用开发:从踩坑到实战
上周排查一个线上问题,用户反馈“搜索相关文档”功能返回的结果越来越离谱。日志里一切正常,关键词匹配度很高,但实际内容却南辕北辙。盯着屏幕看了半小时才反应过来——问题出在语义漂移。传统的倒排索引只能匹配字面关键词,当用户搜索“如何快速搭建测试环境”时,系统可能返回一堆包含“快速”“测试”“环境”但实际讲性能优化的文档。这就是为什么我们需要向量数据库。
2026-04-10 20:52:41
461
原创 023、LangChain框架:构建基于LLM的应用程序
昨天深夜调试一个RAG应用,明明召回的内容都正确,但最终生成的回答总是偏离预期。盯着日志看了半小时,突然意识到问题出在prompt模板里——两个占位符顺序写反了,导致上下文和问题对调输入给了LLM。这种低级错误浪费了我两小时,却也让我重新审视整个链式调用的设计。今天我们就来聊聊如何用LangChain避免这类问题。
2026-04-09 21:41:53
295
原创 022、大语言模型(LLM)API调用与提示工程入门
大模型API调用,上手容易,精通难。最大的门槛不是技术,而是思维转换——从“指令式编程”切换到“引导式沟通”。刚开始你会觉得模型不听话,慢慢你会发现,问题往往出在自己没表达清楚。最好的学习方法是建个测试脚本,固定一个任务(比如商品描述生成),用不同的提示词、温度参数、格式要求反复跑。跑上几十次,你自然就能摸到模型的脾气。我电脑里现在还留着三个月前的对比测试记录,翻看时能清晰看到自己提示工程的进化轨迹。记住,模型不是魔法黑盒,它是个有固定模式的聪明学生。你的提示词,就是给这个学生的考卷题目。
2026-04-09 21:41:31
458
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅