程序猿李巡天-CSDN博客

在2024年红杉资本人工智能峰会上，著名的人工智能专家吴恩达发表了一场备受关注的演讲，深入探讨了智能代理（agent）的四大范式。这四大范式代表了当前AI技术在不同应用领域中的核心方法和实践，分别是反思（Reflection）、工具使用（Tool Use）、规划（Planning）和多代理协作（Multi-Agent）。

2025-07-16 20:27:53 871

原创一文读懂思维链（CoT）在自动驾驶模型中的三大流派

过去我们常常热衷于讨论各种热门的模型，类似VLM(视觉语言模型)，LLM(大语言模型)，NWM(世界模型导航)等等的端到端自动驾驶范式，似乎往往忽略会忽略掉很多工程实现的内容~

2025-07-16 20:26:21 557

原创 AI如何“看图查资料”，带你走进多模态RAG的神奇世界

你有没有遇到过这样的尴尬时刻：

2025-07-16 20:24:53 858

原创 AI 应用开发，还需要意图识别吗？

在大语言模型（LLM）快速发展的今天，传统的意图识别技术面临着新的挑战和机遇。本文将深入分析意图识别在不同应用场景下的必要性，探讨 LLM 对传统意图识别的影响，并从技术维度和场景维度提供实用的技术选型和实施建议。

2025-07-15 19:54:16 253

原创多模态RAG的关键技术

构建一个成熟的多模态RAG系统，需要了解一些无缝处理图像、文本和结构化数据的关键技术，包含CLIP（对比语言-图像预训练）、多模态提示和工具调用等。

2025-07-15 19:51:54 332

原创经典问题之Graph可以如何与Agent结合？从单点到全面归纳

继续来看Graph和Agent的结合方面，也是社区的四大方向之一。

2025-07-15 19:51:07 370

原创头部银行如何打造数据分析智能体？工商银行、中原银行等5家银行典型案例

随着大模型市场的爆火，将大模型与数据分析场景相结合的想法引起企业用户的广泛关注。企业希望利用大模型降低数据分析工具的使用门槛，使业务人员也可以更加便捷的使用数据，释放数据生产力；同时提高数据获取效率、改变数据分析模式，使数据分析人员可以有更多精力完成更高价值的分析工作。

2025-07-14 20:06:32 845

原创 ICML 2025 | 多模态大模型 | MODA：模块化双通道注意力解决多模态中注意力缺陷问题！

本篇文章对提出的“多模态学习中注意力缺陷“问题提出了详尽的实证与理论分析，可以让读者更深刻的理解这个问题所在，以及作者提出的方法的关键性。

2025-07-14 20:04:59 834

原创 Langchain构建一个智能体程序的六步曲

摘要**：学习如何构建一个智能体程序- 从选择真实的任务示例，到构建MVP，再到测试质量和安全性，最终部署到生产环境中。

2025-07-14 20:03:17 551

原创数学训练让AI变笨？强化学习与监督学习的差异

想象一下，你身边有个数学天才，能轻松解决高考数学压轴题，甚至在数学竞赛中屡获佳绩。但当你让他帮忙写个邮件、回答生活常识问题时，他却表现得像个"书呆子"——要么答非所问，要么干脆说不会。

2025-07-13 10:45:00 615

原创企业级AI智能体系统的5种核心工作流模式

在企业环境中构建AI智能体系统时，最简单的工作流模式往往能带来最好的效果和最大的商业价值。Anthropic在去年年底总结了这些顶级模式，到现在依然非常实用。

2025-07-12 19:50:38 351

在人工智能浪潮席卷全球的今天，大型语言模型（LLM）以其强大的自然语言理解与生成能力，正深刻地重塑着各行各业。然而，当企业满怀期待地试图将这些通用大模型引入核心业务流程时，却往往遭遇“最后一公里”的困境：模型输出的内容时常出现事实性错误（即“幻觉”），其知识储备停留在训练数据的截止日期，并且严重缺乏对企业内部专有知识、流程和文化的理解。这些局限性使得通用大模型难以在要求高精度、高时效性和高安全性的企业场景中真正落地生根。

2025-07-12 19:49:49 400

原创近期代表性开源大模型梳理：Decoder转Encoder-Decoder、多模型组合新趋势

近期国外开**源了不少有趣的模型**，大的小的都有，还有对deepseek-r1的魔改，这里做个汇总，包括：**SmolLM3小模型、T5Gemma模型、NextCoder-32B模型、DeepSeek-TNG-R1T2-Chimera专家组合模型，一共4 个模型**。

2025-07-11 22:17:01 322

原创 AI驱动PPT生成平台；多模型智能论文生成；AI智能深度搜索与研究

LandPPT是一个创新的AI驱动的演示文稿生成平台，其核心价值在于利用大型语言模型（LLM）将各种格式的文档内容（包括PDF、Word、Markdown和TXT）智能解析并自动化生成专业的PPT演示文稿。该平台支持广泛的AI模型集成，涵盖OpenAI、Anthropic、Google Gemini及本地Ollama等，并通过集成Tavily API提供深度内容研究能力。LandPPT具备灵活的全局HTML模板系统和AI辅助的多元化页面布局，其高效的三阶段工作流——从需求确认到大纲生成再到最终PPT生成——

2025-07-11 22:16:00 225

原创生物大模型盘点 | 生物信息学中的基础模型有哪些？看这一篇就够了！

2025年1月 25 日，Wang Jianxin 团队在《 ***National Science Review*** 》期刊上发表了一篇题为“**Foundation models for bioinformatics**”的综述，总结了基础模型有哪些类别，下游任务和最新进展。特别的，作者展望了生物信息学基础模型未来的发展方向以及所面临的挑战。

2025-07-10 20:03:33 1033

原创别小看RAG，它的使用场景远远高于大模型微调

我在没有深入研究RAG之前，也是觉得微调效果一定会比RAG好，其实并非如此。RAG用好了，效果要比微调好得多。关键是RAG无论是在搭建还是在后期维护以及成本方面都非常有优势。

2025-07-10 20:01:56 856

原创企业级知识图谱与大语言模型融合实现指南

本文深入探讨了企业级知识图谱（KG）与大语言模型（LLM）的融合实现方法。知识图谱通过语义连接数据集，而大语言模型使用向量和深度神经网络预测自然语言。两者结合可以克服各自的局限性：大语言模型的黑盒特性和事实知识缺陷，正是知识图谱的优势所在。文章详细介绍了RAG、提示到查询转换、微调等主要集成方法，为企业实现更准确、可解释的AI应用提供了实用指导。

2025-07-10 20:00:37 948

原创开发AI Agent到底用什么框架——LangGraph VS. LlamaIndex

如何开发AI Agent，存在不同的工程体系。当前正处于群雄混战的「战国」时代。在这种「乱局」下，AI从业者如何选择，就需要更审慎的思考。

2025-07-09 20:30:55 590

原创大模型运行框架 VLLM 深度分析！

VLLM 是伯克利大学 LMSYS 组织开源的大语言模型高速推理框架，旨在极大地提升实时场景下的语言模型服务的吞吐量与内存使用效率。它通过创新的技术和优化策略，有效管理计算资源，为大语言模型的高效运行提供了强大支持。VLLM 利用全新的注意力算法「PagedAttention」，对注意力键和值进行高效管理，其核心理念在于通过优化内存管理和资源调度，提升大语言模型部署和执行的效率。

2025-07-09 20:29:21 934

原创一文看懂视觉语言动作模型（VLA）及其应用

那其实到今天，理想 VLA应该要上车了，小鹏也发布下一代图灵芯片的车型要上 VLA，基本上所有用英伟达 Thor 超过500Tops的大算力芯片都会切换到 VLA这个算法概念上。

2025-07-09 20:27:46 1225

原创在RAG应用中使用结构化数据的5种方法

今天来聊聊如何在RAG应用中更好地利用结构化数据。很多同学可能觉得RAG主要是处理文本文档，但其实结构化数据也能发挥很大作用。我总结了5种实用的方法：

2025-07-08 20:33:18 582

原创 6月份必读 LLM 综述8篇

用外部知识增强LLM推理，让你的大模型更上一层楼！

2025-07-08 20:29:22 886

原创 A2A实战：用一个简单案例体验多Agent协作的魅力

虽然A2A（Agent-to-Agent）协议自发布以来，热度似乎不及MCP等其他新兴技术，但作为未来可能在AI代理交互中扮演关键角色的协议，它依然值得我们深入了解。

2025-07-07 20:19:27 738

原创 AI Agent&MCP的工程化实践-系列3-模型上下文过长的解决方案

想象一下你正在和一位非常聪明的助手交谈，但这位助手的“短期记忆”是有限的。

2025-07-07 20:18:14 749

原创 RAG的工作流程

RAG 是 "Retrieval-Augmented Generation" 的缩写，中文可以翻译为“检索增强生成”。它是一种结合了信息检索和自然语言生成的技术框架，名称的含义为：

2025-07-07 20:16:33 849

原创超强 RAG 工作流实战：LangGraph + Elasticsearch 强强联手，让 AI 检索效率飙升 300%！

还在为海量数据检索效率低下而头疼？本文将手把手教你用 **LangGraph** 和 **Elasticsearch** 搭建一套 **智能 RAG 工作流**，5 步实现精准文档问答！无论你是开发者还是技术决策者，都能快速构建企业级 AI 解决方案。

2025-07-07 20:15:19 887

原创基于大语言模型的文史知识库构建研究

高质量的文史知识库是开展数字人文研究的基石。近年来，大语言模型凭借其强大的语言理解与生成能力，为人文学科知识的深度加工带来了新的机遇。本文以典故知识分析为案例，通过典故知识结构化整理、用典判断和典故识别三项任务，评估了大语言模型在文史知识提取和加工方面的能力。实验结果显示，经合理的提示设计，大语言模型能够有效地完成文史知识整理，并表现出一定的文史知识判断能力；此外，小样本学习、检索增强及微调策略均能显著提升模型处理文史知识问题的能力。据此，文章讨论了大语言模型在文史知识加工领域的应用策略，包括模型选择、调用

2025-07-06 10:45:00 894

原创大语言模型推理系统综述

近年来，随着 ChatGPT 等服务推动大语言模型（LLM）的快速普及，一批专门面向 LLM 推理的系统相继涌现，如 vLLM、SGLang、Mooncake 和 DeepFlow。这些系统设计工作的核心动因是 LLM 请求处理过程中所特有的自回归特性，该特性促使研究者提出多种新技术，以在应对高吞吐量与高并发负载的同时，兼顾推理性能与结果质量。尽管相关技术在文献中已有广泛讨论，但尚未在完整推理系统的框架下进行系统性分析，现有系统之间也缺乏深入的对比与评估。

2025-07-05 10:45:00 893

原创多模态医学图像创新突破，成果登上Nature正刊！

医学人工智能领域有个很火的方向：**多模态医学图像**。最近，哈佛等团队在Nature正刊上发表了相关文章，讲述了多模态生成式AI在医学图像解读中的应用，非常值得该方向的同学研读。

2025-07-04 13:03:21 798

原创 RAG智能客服的召回率与精准率，评测到底在评啥？

有人说：“你这客服系统效果咋样？召回率多少？精准率多少？” 我陷入沉思：**这测试集得怎么构建呢，怎么能覆盖用户的所有提问……

2025-07-03 21:53:51 802

原创 FG-CLIP：细粒度视觉文本对齐

对比语言图像预训练模型 (CLIP) 在图像文本检索和零样本分类等多模态任务中表现出色，但由于其侧重于粗粒度的简短标题，在细粒度理解方面存在不足。为了解决这个问题，我们提出了细粒度 CLIP (FG-CLIP)，它通过三个关键创新增强了细粒度理解能力。首先，我们利用大型多模态模型生成 16 亿对长标题图像对，以捕捉全局语义细节。其次，我们构建了一个高质量的数据集，包含 1200 万张图像和 4000 万个与详细标题对齐的区域特定边界框，以确保精确且丰富的上下文表示。第三，我们整合了 1000 万个细

2025-07-03 21:53:00 845

空空如也

空空如也