- 博客(12)
- 问答 (1)
- 收藏
- 关注
原创 AI测试工程体系与落地实践深度研究报告(2026)
AI测试工程是系统性应用人工智能技术优化测试流程、提升测试效率与质量,同时面向AI原生系统开展全生命周期质量保障的新型工程范式。以AI作为工具增强测试人员能力,覆盖需求分析、测试用例生成、自动化执行、缺陷根因分析等环节,核心目标是提升传统测试环节的运行效率;将测试对象扩展至大语言模型、RAG系统、AI智能体、具身智能等新型AI架构,针对AI系统特有的属性开展专项质量验证;构建包含AI测试知识库、自动化评测平台、测试数据管理系统在内的完整基础设施,支撑规模化AI测试落地。
2026-03-23 11:05:36
895
原创 AI大模型实战系列(八):从静态检索到主动决策——Agentic RAG(智能体 RAG)与 LangGraph 工业级编排
摘要: 本文介绍了Agentic RAG(智能体RAG)如何通过LangGraph框架实现从静态检索到主动决策的升级。传统RAG系统存在单向流水线的缺陷,无法动态调整检索策略。Agentic RAG将大模型作为中央大脑,赋予其意图识别、路由决策和自我纠错能力。LangGraph通过状态机(State)、节点(Nodes)和条件边(Conditional Edges)实现复杂工作流编排,并演示了工业级CRAG架构的实现,包括文档检索、相关性评估、查询重写和生成等核心节点。这一方案显著提升了RAG系统处理复杂查
2026-03-20 09:05:07
658
原创 AI大模型实战系列(七):量化黑盒——构建 RAG 系统的自动化评估体系与核心指标
本文探讨了如何构建RAG系统的自动化评估体系,提出利用大模型作为裁判的量化评估方法。文章首先指出传统人工评估的三大缺陷:高成本、主观性强、难以归因,进而引入"RAG Triad"评估框架,从上下文相关性、事实一致性和回答相关性三个维度进行量化分析。重点介绍了Ragas开源框架的实战应用,包括测试数据集构建、核心评估代码实现及结果分析。最后分享了测试集冷启动方案和CI/CD自动化集成策略,强调通过量化指标实现RAG系统的科学优化,推动AI开发从"玄学调参"迈向严谨的软件
2026-03-20 09:04:25
497
原创 AI大模型实战系列(六):大浪淘沙——Advanced RAG 架构与 Reranker 重排深度解析
本文深入解析了Advanced RAG架构中的核心技术与优化策略。针对大规模知识库检索面临的"高召回、低精度"问题,提出两阶段检索方案:先通过快速向量检索(Bi-Encoder)进行粗排召回,再使用深度交互的Reranker(Cross-Encoder)对候选文档进行精排。重点介绍了基于BGE-Reranker的LangChain实现,通过设置阈值过滤和Top-N截取,显著提升检索质量。文章还指出查询转换在解决用户模糊查询时的重要性,为构建高效RAG系统提供了完整的技术路径。该方案能有效
2026-03-19 09:19:54
419
原创 AI大模型实战系列(五):LangChain 链路打通——构建 HR 智能问答系统与混合检索架构揭秘
AI大模型实战:LangChain构建HR智能问答系统与混合检索架构 本文介绍了使用LangChain框架构建企业HR智能问答系统的实战方法。首先阐述了LangChain在RAG系统中的核心价值,通过组件化和链式编排简化开发流程。随后详细演示了HR问答系统的实现代码,包括向量数据库挂载、大模型初始化、Prompt模板设计等关键环节,特别强调了低temperature参数和Prompt防御机制的重要性。 文章深入分析了纯向量检索的局限性,如专有名词和精确匹配的缺陷,并提出混合检索解决方案。混合检索结合向量检索
2026-03-19 09:19:02
330
原创 AI大模型实战系列(四):向量数据库架构揭秘与 Chroma 本地实战
摘要 本文介绍了向量数据库在AI大模型实战中的关键作用,重点解析了传统数据库无法高效处理向量检索的原因,以及向量数据库通过ANN算法实现毫秒级查询的底层原理。文章对比了Pinecone、Milvus、Faiss和Chroma等主流向量数据库的优缺点,并推荐轻量级的Chroma作为中小型项目的首选。最后通过代码示例演示了Chroma的本地实战操作,包括数据持久化、集合创建、向量入库及混合过滤检索,为构建高效RAG系统提供了实用指南。
2026-03-18 09:08:20
401
原创 AI大模型实战系列(三):数据重塑——文档解析、分块策略与向量化底层实操指南
本文深入探讨企业级RAG系统的数据管道构建,聚焦文档解析、分块策略和向量化三大核心环节。首先指出复杂文档(PDF/Word等)的解析痛点,提出多级解决方案;其次分析文本分块技术,从基础字符切分到高级语义分块;然后详解向量化原理,比较在线API与本地部署方案,推荐使用Ollama框架部署bge-m3模型;最后介绍向量相似度计算方法。文章强调数据质量决定RAG系统上限,为后续向量数据库选型奠定基础。
2026-03-18 08:57:44
598
原创 AI大模型实战系列(二):破除神话,深研 RAG(检索增强生成)的核心本质与底层逻辑
摘要:本文剖析了大语言模型(LLM)的三大固有缺陷——知识时效性差、垂直领域覆盖不足和幻觉问题,指出传统方法(提示词工程和微调)的局限性。重点阐述了RAG(检索增强生成)架构的核心价值:通过"检索+生成"的分离设计,将外部知识库与大模型能力结合,实现精准问答。文章详细拆解了RAG系统的三阶段流程(索引构建、语义检索、增强生成),并论证其作为企业AI落地首选方案的四大优势:结果可溯源、数据权限可控、知识更新高效以及实施门槛低。最后指出基础RAG的不足,为后续深度优化埋下伏笔。(149字)
2026-03-17 17:22:06
381
原创 AI大模型实战系列(一):RAG开发前置知识与环境搭建完全指南
在人工智能技术日新月异的今天,大模型应用开发已经成为开发者们的必修课。本文将详细梳理本阶段学习的前置要求,并手把手教你完成 Python 依赖安装、虚拟环境进阶以及大模型 API-KEY 的安全配置。
2026-03-17 17:13:46
414
原创 第三篇:大模型安全(LLM Security)进阶攻防实战——构建企业级坚不可摧的AI护城河
将大模型应用推向生产环境,就像是将一辆没有安装刹车的超级跑车开上高速公路。Prompt 攻击与企业级防御体系,本质上是一场社会工程学、自然语言处理与系统架构设计的顶级较量。攻击者的手段每天都在翻新,防御者也永远不能奢望只靠一段“神奇的安全提示词”就能一劳永逸。只有将**“隔离、鉴权、自省、监控”**的纵深防御理念深入到 AI 产品设计的每一行代码中,企业才能在这场波澜壮阔的智能时代中,既享受 AI 带来的巨大红利,又牢牢守住安全的底线。
2026-03-16 09:06:33
513
原创 第二篇:大模型提示工程(Prompt Engineering)高级调优与前沿策略
Liumk当我们面对长文本处理、复杂逻辑推理、减少幻觉或需要调用外部工具的任务时,传统的单次对话提示词往往力不从心。
2026-03-15 15:47:04
398
原创 第一篇:提示词基础与结构化编写指南
通俗讲,提示词是用户提供给大型语言模型 (LLM) 的一段文本,用于引导模型生成特定的输出。简单来说,就是你给 AI 的“指令”或“问题”。提示词工程是一门学科,它研究如何设计和优化提示词,以最大限度地发挥大型语言模型的能力,获得期望的、高质量的输出。思路 (idea) ➡️ 提示 (prompt) ➡️ 实验 (experiment)。
2026-03-15 15:38:02
544
空空如也
python做一个分数统计器
2021-08-31
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅