DS-RAG-CSDN博客

原创向量数据库、Embedding、Reranking…RAG技术栈全拆解，面试官问到这些再也不慌

RAG（Retrieval-Augmented Generation，检索增强生成）是一种将信息检索与大语言模型生成能力相结合的技术架构。它的核心思想很简单：在LLM生成回答之前，先从一个外部知识库中检索出与用户问题相关的信息，然后将这些信息作为上下文提供给LLM，让LLM基于这些真实、可靠的信息来生成回答。RAG = 检索（Retrieval）+ 生成（Generation）。它解决的核心问题是：LLM的知识截止于训练数据，且无法访问企业私有数据。

2026-04-27 18:08:17 258 1

原创 Hermes Agent 实现原理深度解析：为什么它正在成为 AI Agent 领域的新宠？

Hermes Agent 代表了一种不同的 AI Agent 设计思路——不是追求在单次交互中完成最多的事情，而是追求在多次使用中持续积累和提升。四层记忆架构：从提示记忆到用户建模，实现了真正意义上的"认识你"GEPA 自我进化引擎：基于 ICLR 2026 论文的离线进化算法，让技能持续优化Agent-first 架构：以学习能力为核心，而非以消息网关为核心它不是要取代 OpenClaw，而是开辟了一条不同的道路。

2026-04-27 12:04:48 518 1

原创 Claude Code Memory 系统实现原理：从设计哲学到技术细节

CLAUDE.md 是一个普通的 Markdown 文件，你可以在里面写任何你希望 Claude 遵循的指令。Claude Code 在每次会话启动时会自动读取这些文件，并将内容注入到上下文窗口中。可以把 CLAUDE.md 理解为一份始终存在于 Claude 视野中的"项目说明书"——无论你问什么问题，Claude 都能看到这份说明书，并据此调整自己的行为。如果说 CLAUDE.md 是你给 Claude 的"规则手册"，那么自动记忆就是 Claude 自己维护的"学习笔记"。

2026-04-26 21:46:52 309 1

原创 DeepSeek-V4来了，百万上下文普惠化，开源模型追平闭源！

不诱于誉，不恐于诽，率道而行，端然正己。——《荀子·非十二子》我们将始终秉持长期主义的原则理念，在尝试与思考中踏实前行，努力向实现 AGI 的目标不断靠近。这或许是对 V4 最好的注脚。技术报告中对自身与顶尖闭源模型的差距毫不避讳，对性能数据坦诚以待。在行业充斥"全面超越"话术的当下，这种态度本身就是一种稀缺品。V4 目前仍是预览版，后续还有继续优化的正式稳定版。百万上下文在复杂 Agent 场景下的实际可靠性、大规模部署中的稳定性——这些都还需要更长时间的检验。

2026-04-24 13:15:36 346 1

原创轻松理解Ollama、vLLM、SGLang三种AI模型部署框架的区别是什么？

大模型生成文本的方式是"逐字生成"——每生成一个字，都要"看一遍"之前所有的字。生成"今" → 看输入（1个字）生成"天" → 看输入 + "今"（2个字）生成"气" → 看输入 + "今天"（3个字）生成"真" → 看输入 + "今天天"（4个字）生成"好" → 看输入 + "今天天气"（5个字）每次都要重新计算之前所有字的"注意力权重"，计算量巨大。把之前计算过的 Key 和 Value 缓存下来，生成新字时直接复用，不需要重新计算。没有 KV Cache：生成每个字都要从头算 → 慢。

2026-04-22 18:14:04 470 1

原创大模型为什么会“降智“？—— 从部署工程到训练本质的全面硬核分析

大模型降智不是一个"玄学"问题，而是一个横跨工程部署、模型架构、训练范式、数据生态、产品策略、人类认知的系统性问题。从最表层看，它是显存不够、并发太高、参数被锁；往深处挖，它是 Transformer 注意力机制的先天局限、RLHF 对齐税的根本矛盾、持续学习中灾难性遗忘的不可避免；再往本质看，它是 AI 工业化进程中——算力成本、合规风控、用户体验三者博弈的必然产物。理解这些机制，不是为了抱怨模型"变笨了"，而是为了在限制中找到最优解。

2026-04-16 11:02:50 286 1

原创 2026 AI生存指南：给大学生的行业地图与行动方案

模型格局重塑：Google Gemini 以极致性价比崛起；中国开源模型全面超越 Llama；开源与闭源差距缩小至仅4分推理模型成为标配：几乎所有主流模型都推出了 Reasoning 版本，推理模式可带来10-15分的综合评分提升Agent 时代到来：从代码补全到自主编程 Agent，Claude Code 仅用10个月登顶开发门槛急剧降低：自然语言编程、低代码AI化、模型路由等技术使非专业人员也能构建AI应用就业市场结构性迁移：初级白领岗位缩减，AI相关岗位爆发增长难度推荐选题核心技术。

2026-04-13 23:05:34 316 1

原创给大学生说明白：什么是提示词工程，上下文工程，驾驭工程，环境工程！

《AI工程范式演进：从提示词工程到环境工程》摘要本文系统梳理了AI应用开发的四次工程范式演进：提示词工程（2023-2024）：聚焦优化输入指令，通过角色设定、思维链等技术提升输出质量上下文工程（2025）：管理模型推理时的完整信息环境，核心是RAG检索增强生成和工具调用驾驭工程（2026）：设计外部约束与反馈系统，确保AI行为可控可靠环境工程（2026+）：构建多智能体协同的全局基础设施这四代范式呈嵌套演进关系，每一代都解决前一代的局限性。文章详细阐述了各阶段的核心原理、关键技术。

2026-04-07 13:58:41 449 1

原创学术翻译革命！PDFMathTranslate 2.0横空出世：公式不崩、排版不乱、术语精准，凌晨三点的文献再也不用“人肉”翻译了！

告别公式错乱、排版崩坏的噩梦！PDFMathTranslate 2.0 是一款革命性的开源工具，专为科研人员设计，能在翻译学术PDF时完美保留公式、图表、目录和注释等复杂布局。它支持100+种语言互译，并集成Google、DeepL、OpenAI及本地大模型等多种翻译引擎，用户可按需选择在线或离线模式，兼顾效率与数据安全。提供命令行、图形界面、Docker容器及Windows免安装版四种部署方式，无论你是技术大神还是电脑小白都能轻松上手。

2025-11-10 17:24:50 933

原创深度解析Sora2：技术革命与创意产业的未来图景

Sora2标志着视频生成技术的"GPT-3.5时刻"，实现了从视觉拟真到物理仿真的突破。其3D一致性架构能精准模拟复杂物理现象，使生成内容兼具真实性与创意性。产品生态构建"工具-社区-生态"三级体系，通过Cameo功能实现社交共创。商业应用重构行业成本结构，如电商直播人力成本降低92%。开源与闭源路线共同推动创意民主化，但也带来版权和伦理挑战。未来Sora2将向"通用世界模拟器"演进，连接虚拟与现实，重塑内容创作范式。

2025-10-02 20:51:08 1706

原创万方智能体投票火热进行中~

投票活动！！！

2025-10-02 19:40:51 592

原创豆包还有这牛的功能－－AI播客

2025年6月17日，豆包电脑版全量上线了「AI播客」功能，豆包APP也已开启小流量测试，将于近期全量上线。用户只需上传PDF、网页链接，就能快速生成一段双人对话播客，AI提问，AI解读，把原本晦涩难啃的内容，讲成一场有逻辑、有节奏的对话。这一功能基于豆包大模型团队推出的语音播客模型，承诺提供高度拟人、流畅自然的语音效果。豆包AI播客功能的推出，是人工智能技术在内容创作和传播领域的一次创新尝试。

2025-06-29 18:51:39 1700

原创 Gemini CLI强势来袭！

Gemini CLI 是谷歌推出的一款开源的命令行界面工具，它能将谷歌的 Gemini AI 模型直接集成到开发者的终端中。该工具目前处于预览阶段，其目标是通过自然语言提示，为编码、研究和系统级任务提供支持。它连接到谷歌的 Gemini 2.5 Pro 模型，为开发者提供了一个简化的界面，可在命令行中编写和调试代码、自动化工作流程，以及通过谷歌搜索访问网页内容。Gemini CLI 作为一款将谷歌强大的 AI 模型集成到命令行界面的工具，具有诸多显著的优势。

2025-06-27 10:57:56 1762

原创 AI开发神器Codeflying：零基础也能创建专业应用

Codeflying（码上飞）是杭州码上飞科技推出的L4级智能软件开发平台，通过自然语言交互实现全流程自动化开发，让零基础用户也能轻松创建专业应用。该平台提供自然语言开发、全流程自动化、多场景适配等核心功能，支持Web/App开发及企业级定制服务，开发周期较传统方式缩短90%以上。相比Cursor等工具，Codeflying更加专注于降低技术门槛，而非专业开发者辅助。适用于个人创意实现、中小企业数字化转型及创业团队快速原型验证。用户可通过官网注册使用，通过清晰的需求描述即可生成完整应用，包含前后端代码及相关

2025-06-25 18:56:36 1089

原创 MiniMax - M1：开源大模型的革命性突破

MiniMax - M1是全球首个开源的大规模混合架构推理模型，具备4560亿参数和100万token上下文支持。其创新技术包括混合专家架构、闪电注意力机制和自研强化学习算法CISPO，显著提升了计算效率和推理性能。在长文本处理、编程能力和数学推理等任务中表现优异，超越多数开源模型并接近顶级闭源产品。应用领域涵盖文档分析、代码生成、企业智能体和创意写作。该模型通过Hugging Face和GitHub开源，推动了大模型技术的普惠化发展。

2025-06-24 07:00:00 1573

原创开源AI神器Cherry Studio：全能本地部署

Cherry Studio：全能AI助手平台的创新与实践 Cherry Studio是一款国产开源AI工具，整合多模型对话、知识库管理、AI绘画等功能，支持本地部署确保数据安全。其核心优势包括：模块化设计（智能知识库、AI绘画、多模型切换）、高度定制化（自定义AI助手、参数微调）、全平台兼容性及开放API接口。特色功能涵盖快捷问答、智能翻译、内容总结及多服务商统一管理。部署方式灵活，支持Ollama本地模型配置，并提供丰富的数据备份方案。适用于企业、研究机构和个人用户，兼顾高效工作与数据隐私保护。

2025-06-23 17:48:43 1427

原创 ComfyUI：AI绘画的全新节点式革命

ComfyUI是一款基于节点的开源AI图像生成工具，专为Stable Diffusion设计。该工具采用模块化工作流设计，将图像生成过程分解为可自由连接的独立模块，用户可直观地进行拖拽组合实现复杂任务。支持多种SD模型、视频处理和动画生成功能，具备资源优化和完全离线运行特性。2024年成立Comfy Org团队后功能快速扩展，2025年推出V1桌面版降低使用门槛。应用场景包括艺术创作、图像修复、电商主图制作等，市场反馈显示其虽存在一定学习曲线，但凭借高度定制化能力和图形化界面获得广泛认可。作为AI绘画领域的

2025-06-23 17:38:05 1768

原创 Obsidian研究报告

Obsidian是一款基于Markdown的本地化知识管理工具，以其双向链接、图谱视图和丰富插件生态为核心特色。研究报告显示，该产品自2020年问世以来用户量增长超200%，现有55万活跃用户。相比Notion等云端工具，Obsidian在数据隐私和离线使用方面更具优势，但学习曲线较陡且协作功能不足。主要应用场景涵盖学习笔记、项目管理和个人知识体系构建，特别适合重视知识网络化管理的用户群体。市场反馈良好，但用户期待改进移动端体验和降低入门门槛。

2025-06-23 17:30:14 1529

原创 Notebooklm研究报告

NotebookLM：AI驱动的智能知识管理工具 NotebookLM是Google推出的一款创新AI知识管理工具，通过多源输入（支持PDF、网页、视频等50种来源）、精准问答（带引用功能）和自动摘要等功能，帮助用户高效处理信息。其独特亮点包括音频概述（可生成AI主持的播客）和协作共享功能，适用于学术研究、企业办公和个人知识管理。近期新增"自动找资料"功能，能智能推荐研究资源。NotebookLM采用精简团队开发，强调数据隐私（不用于模型训练），市场表现强劲，月访问量增长56%，尤其受到

2025-06-23 17:19:47 1059

原创字节跳动Coze平台调研报告

客服机器人：和府捞面的产品经理利用Coze平台仅用3周时间就搭建起了一套单工作流的智能体系统，该系统通过深度挖掘顾客反馈数据，精准识别顾客评价中的情感倾向及关键评价要素，并以JSON格式输出为API，方便直接集成到企业系统中，助力其快速、精准地优化经营策略，节省了大量人力成本。不过，在国际市场上，由于其国内版仅支持豆包、通义等少数模型，模型选择相对较少，与一些支持全球主流模型的平台相比，还存在一定的挑战。此外，用户还可以通过设置触发器和条件判断，实现状态机的设计，使智能体能够根据不同的状态进行相应的处理。

2025-06-22 08:00:00 1652

原创 MCP与A2A协议研究报告

AI交互协议研究报告摘要 MCP（模型上下文协议）与A2A（智能体间协议）是两大新兴AI交互标准。MCP由Anthropic推出，标准化AI模型与外部工具/数据源的交互，采用客户端-服务器架构，通过JSON-RPC实现统一接口，解决传统API集成碎片化问题，适用于开发工具集成、企业自动化等场景。A2A由Google主导，专注于智能体间协作，支持跨平台任务分配与执行，通过"Agent Card"发现能力，适用于供应链管理、医疗协作等复杂流程。两者互补：MCP赋能单个智能体访问资源，A2A协

2025-06-21 15:16:03 904

原创 Google DeepMind Research研究报告

Google DeepMind研究团队发布开源项目库DeepMind Research，推动AI技术发展与应用。该项目涵盖强化学习、图神经网络等前沿领域，提供代码实现和模拟环境，支持学术研究、教育和产品开发。DeepMind通过AlphaGo、AlphaFold等突破性成果展现了AI在游戏、生物等领域的潜力。该项目创新性地融合多学科方法，注重模型可解释性，在科研、工业和社会服务领域具有广阔前景。未来需在技术发展的同时关注伦理问题，确保AI技术安全、负责任地发展。

2025-06-21 15:02:11 1504

原创 Windows/Linux 系统常用命令总结

本文总结了Windows和Linux系统最常用的命令行工具，帮助用户提高工作效率。Windows部分涵盖文件操作（dir、cd、copy等）、系统管理（ipconfig、tasklist）和实用工具（cmd、powershell）。Linux部分包括文件和目录命令（ls、rm、mv）、系统管理（top、ps、df）以及网络和权限管理（ifconfig、sudo）。文章采用表格形式清晰展示命令说明和使用示例，可作为日常系统管理和维护的快速参考手册。掌握这些基础命令能显著提升计算机操作能力。

2025-06-21 14:43:59 333

原创 Lovart研究报告：AI设计领域的颠覆者与新范式

Lovart是一款革命性AI设计工具，整合多种先进模型实现自然语言生成设计、智能任务拆解和多模态内容输出。适用于品牌策划、营销宣传、原型设计等场景，显著提升设计效率。其"Design Agent"理念提供专业级创意服务，支持实时协作与画布编辑。尽管在视频生成和细节处理上仍有不足，但作为设计领域颠覆者，Lovart正重新定义行业标准，让专业设计变得更高效便捷。

2025-06-21 14:33:19 2435

原创 Second Me：开源AI身份革命与数字自我重塑

Second Me项目开创性地构建了一个开源、去中心化的AI数字身份系统，让用户能创建完全私有的AI分身。其核心技术包括三层记忆模型和个性化对齐架构，确保AI能精准代表用户。所有数据本地处理，用户完全掌控隐私。应用场景覆盖社交、职场、内容推荐等多个领域，可自动完成复杂任务。这一创新既解决了中心化AI的数据隐私问题，又为数字身份管理提供了新范式，未来有望成为AI时代的重要基础设施。

2025-06-21 14:27:12 1241

原创深入解析YOLOv11：实时目标检测的最新进展

YOLOv11作为YOLO系列最新版本，在保持实时检测优势的同时，通过引入C3k2块、空间-通道分离下采样(SCDown)和多分支辅助特征金字塔网络(RepHELAN)等创新技术，显著提升了检测精度和泛化能力。本文系统梳理了YOLO系列算法的发展历程，详细解析了YOLOv11的核心算法原理和网络结构特点，并提供了完整的安装部署指南。YOLOv11的推出标志着实时目标检测技术迈上新台阶，为自动驾驶、智能安防等应用场景提供了更强大的技术支持。

2025-06-20 13:41:23 504

原创 Ollama本地化部署指南

Ollama是一个开源工具，旨在简化大型语言模型（LLM）的本地部署和使用过程。它允许用户在个人计算机上运行各种先进的AI模型，如DeepSeek-R1、Qwen 3、Llama 3.3、Qwen 2.5‑VL和Gemma 3等，无需依赖云服务。本地化运行：所有模型在本地设备上运行，保护隐私和数据安全多平台支持：兼容Windows、macOS和Linux系统简单易用：提供简洁的命令行界面和API接口GPU加速：支持NVIDIA和AMD GPU加速推理模型管理：便捷的模型下载、切换和管理功能。

2025-06-01 17:38:52 2080

原创本地部署大模型 vs 网页版大模型区别

fill:#333;color:#333;color:#333;fill:none;本地服务器/工作站硬件资源私有化部署GPU集群高速存储模型文件训练框架推理引擎。

2025-06-01 17:13:04 1536

原创 FastGPT与Dify智能体搭建平台详解

智能体搭建平台是指为用户提供构建、部署和管理AI应用的一站式解决方案。这类平台通常集成了大语言模型调用、知识库管理、工作流编排等功能，使得开发者能够以低代码甚至零代码的方式快速构建智能应用。随着大语言模型技术的成熟，FastGPT和Dify等平台应运而生，为AI应用开发提供了便捷高效的工具。FastGPT是一个基于LLM大语言模型的知识库问答系统，将智能对话与可视化编排完美结合，让AI应用开发变得简单自然。它是一个开源的AI知识库构建平台，具备数据处理、模型调用、RAG检索及可视化AI工作流编排等核心功能。

2025-06-01 12:23:04 899

原创 MCP（模型上下文协议）详细介绍

MCP（模型上下文协议）作为一种开放标准，为大型语言模型与外部世界的交互提供了统一的接口。它解决了数据孤岛问题，增强了数据安全性，并促进了开放生态的形成。通过MCP，AI应用能够更智能、更安全地访问和操作各种数据源和工具，从而提供更丰富、更实用的功能。虽然MCP仍处于发展早期，面临一些挑战，但其开放性和灵活性为AI应用的未来发展提供了广阔空间。随着更多开发者和企业的参与，MCP生态将不断壮大，为AI应用带来更多可能性。

2025-06-01 12:19:57 1331

原创 Agent（智能体）详细介绍

AI Agent（智能代理）代表了人工智能从被动响应向主动行动的重要转变。通过结合大型语言模型的强大理解和生成能力，以及与外部工具和环境的交互能力，AI Agent能够自主完成复杂任务，为用户提供全新的智能辅助体验。随着技术的不断发展，AI Agent将在个人助理、企业应用、创意创作、教育学习和专业研究等多个领域发挥越来越重要的作用。同时，我们也需要关注安全控制、幻觉问题、隐私保护和资源消耗等挑战，确保AI Agent的发展方向符合人类的长远利益。

2025-06-01 12:18:44 997

原创 RAG（检索增强生成）详细介绍

RAG（检索增强生成）技术通过结合信息检索和大语言模型的生成能力，有效解决了大模型在实际应用中面临的知识局限性、幻觉问题和数据安全性等挑战。它使AI系统能够"查阅资料"后再回答问题，大大提高了回答的准确性、可靠性和实用性。RAG的实现涉及数据准备和应用两个主要阶段，包括数据提取、文本分割、向量化、数据入库、检索、提示注入和生成等关键步骤。通过合理设计和优化这些环节，可以构建出高效、准确的RAG系统，为各种专业领域和应用场景提供智能问答和信息处理能力。

2025-06-01 11:43:30 866

RAG技术详解：检索增强生成提升大型语言模型实时性和准确性

内容概要：RAG（Retrieval Augmented Generation，检索增强生成）是一种结合检索和生成能力的AI技术，旨在优化大型语言模型（LLM）的输出。RAG通过从外部知识库获取实时信息，增强LLM的回答准确性和时效性，无需重新训练模型。其工作流程包括数据准备、检索、提示增强和生成四个主要步骤。RAG的优势在于提高回答的准确性、实时性和成本效益，广泛应用于智能聊天机器人、问答系统和AI助手等领域。然而，RAG也面临数据质量、性能问题、隐私与安全及集成复杂性等挑战。; 适合人群：对AI技术和自然语言处理感兴趣的开发者、研究人员以及希望提升AI应用性能的企业技术人员。; 使用场景及目标：①提高智能聊天机器人的回答准确性和实时性；②构建企业内部问答系统，提供最新政策和信息；③增强AI助手的功能，使其能够处理复杂查询并生成上下文相关的回答。; 其他说明：RAG技术的实现涉及嵌入模型、向量数据库和检索算法等工具。未来，RAG有望在可扩展性、适应性和企业应用方面取得重大突破，成为AI技术的重要支柱。

2025-06-01

【大模型分类详解】基于Transformer与CNN/RNN架构的语言、视觉、语音及多模态大模型应用领域与技术原理分析

内容概要：本文详细介绍了大模型的分类及其应用领域和技术架构。首先按照核心应用领域分为语言大模型、视觉大模型、语音大模型和多模态大模型四类，其中语言大模型又细分为通用型和领域专用型。接着从技术架构与训练方式角度进行了分类，包括模型结构差异、训练阶段分级和参数规模分级。文中还列举了不同架构类型的典型模型及其应用领域，如Transformer系的BERT、ViT用于NLP和跨模态任务，CNN/RNN系的ResNet、Wav2Vec 2.0用于传统视觉/语音任务。最后给出了实用工具推荐，如文档转换工具Omni-Zerox、gptpdf，以及部署优化工具Markdown-Website。适合人群：从事人工智能、机器学习相关工作的研究人员、工程师，尤其是对大模型有研究兴趣或者实际应用需求的专业人士。使用场景及目标：帮助读者了解不同类型大模型的特点、应用场景和技术原理，以便根据具体业务需求选择合适的大模型进行开发或研究；同时提供了一些辅助工具供参考，方便用户在实际工作中使用。其他说明：文章内容涵盖了大模型领域的多个方面，既有宏观视角下的分类概括，也有微观层面的技术细节分析，对于想要深入了解大模型的读者来说是一份非常有价值的参考资料。

2025-06-01

大模型蒸馏技术：AI模型压缩与高效部署的深度解析及应用探索

内容概要：本文介绍了大模型蒸馏技术，这是一种将复杂AI模型的知识传递给轻量级模型的方法。文中首先解释了该技术的核心思想，即教师模型（如GPT-4）通过特定算法向学生模型（如手机端AI）传授知识，使后者在体积大幅减小的情况下仍能保持较高性能。接着阐述了技术原理的三个关键要素：软标签蒸馏、温度参数调控以及特征模仿机制。随后，文章详细描述了实施过程的四个步骤，包括教师-学生模型的选择、双重损失函数的设计、渐进式训练策略以及部署优化技巧。最后探讨了该技术的应用场景及其面临的挑战和未来发展趋势。适合人群：对AI模型优化感兴趣的开发者、研究人员以及希望了解如何在资源受限环境下部署高效AI系统的工程师。使用场景及目标：①适用于需要在移动设备或其他计算资源有限的环境中部署高性能AI应用的场景；②帮助从业者理解如何通过蒸馏技术提高模型效率并降低成本；③为研究者提供前沿发展方向，如联邦蒸馏、动态蒸馏等领域的探索。阅读建议：由于本文涉及较多的技术细节和应用场景，建议读者结合实际项目需求来理解各个部分的内容，特别是技术原理和实施步骤部分，同时关注当前存在的挑战和未来的研究方向。

2025-06-01

深度学习领域大模型微调技术详解：全参数、冻结层、提示学习等方法及金融、医疗应用

2025-06-01

【deepseek模型应用】不同规模deepseek模型特性分析及其应用场景汇总：从小模型到极大模型的全面解析

内容概要：本文详细介绍了deepseek系列模型，按照规模分为小模型（1.5b-8b）、中模型（14b-32b）、大模型（70b）和极大模型（671b），并分别阐述了每个模型的优点、缺点及其适用的应用场景。

2025-06-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人