- 博客(32)
- 收藏
- 关注
原创 向量数据库、Embedding、Reranking…RAG技术栈全拆解,面试官问到这些再也不慌
RAG(Retrieval-Augmented Generation,检索增强生成)是一种将信息检索与大语言模型生成能力相结合的技术架构。它的核心思想很简单:在LLM生成回答之前,先从一个外部知识库中检索出与用户问题相关的信息,然后将这些信息作为上下文提供给LLM,让LLM基于这些真实、可靠的信息来生成回答。RAG = 检索(Retrieval)+ 生成(Generation)。它解决的核心问题是:LLM的知识截止于训练数据,且无法访问企业私有数据。
2026-04-27 18:08:17
258
1
原创 Hermes Agent 实现原理深度解析:为什么它正在成为 AI Agent 领域的新宠?
Hermes Agent 代表了一种不同的 AI Agent 设计思路——不是追求在单次交互中完成最多的事情,而是追求在多次使用中持续积累和提升。四层记忆架构:从提示记忆到用户建模,实现了真正意义上的"认识你"GEPA 自我进化引擎:基于 ICLR 2026 论文的离线进化算法,让技能持续优化Agent-first 架构:以学习能力为核心,而非以消息网关为核心它不是要取代 OpenClaw,而是开辟了一条不同的道路。
2026-04-27 12:04:48
518
1
原创 Claude Code Memory 系统实现原理:从设计哲学到技术细节
CLAUDE.md 是一个普通的 Markdown 文件,你可以在里面写任何你希望 Claude 遵循的指令。Claude Code 在每次会话启动时会自动读取这些文件,并将内容注入到上下文窗口中。可以把 CLAUDE.md 理解为一份始终存在于 Claude 视野中的"项目说明书"——无论你问什么问题,Claude 都能看到这份说明书,并据此调整自己的行为。如果说 CLAUDE.md 是你给 Claude 的"规则手册",那么自动记忆就是 Claude 自己维护的"学习笔记"。
2026-04-26 21:46:52
309
1
原创 DeepSeek-V4来了,百万上下文普惠化,开源模型追平闭源!
不诱于誉,不恐于诽,率道而行,端然正己。——《荀子·非十二子》我们将始终秉持长期主义的原则理念,在尝试与思考中踏实前行,努力向实现 AGI 的目标不断靠近。这或许是对 V4 最好的注脚。技术报告中对自身与顶尖闭源模型的差距毫不避讳,对性能数据坦诚以待。在行业充斥"全面超越"话术的当下,这种态度本身就是一种稀缺品。V4 目前仍是预览版,后续还有继续优化的正式稳定版。百万上下文在复杂 Agent 场景下的实际可靠性、大规模部署中的稳定性——这些都还需要更长时间的检验。
2026-04-24 13:15:36
346
1
原创 轻松理解Ollama、vLLM、SGLang三种AI模型部署框架的区别是什么?
大模型生成文本的方式是"逐字生成"——每生成一个字,都要"看一遍"之前所有的字。生成"今" → 看输入(1个字)生成"天" → 看输入 + "今"(2个字)生成"气" → 看输入 + "今天"(3个字)生成"真" → 看输入 + "今天天"(4个字)生成"好" → 看输入 + "今天天气"(5个字)每次都要重新计算之前所有字的"注意力权重",计算量巨大。把之前计算过的 Key 和 Value 缓存下来,生成新字时直接复用,不需要重新计算。没有 KV Cache:生成每个字都要从头算 → 慢。
2026-04-22 18:14:04
470
1
原创 大模型为什么会“降智“?—— 从部署工程到训练本质的全面硬核分析
大模型降智不是一个"玄学"问题,而是一个横跨工程部署、模型架构、训练范式、数据生态、产品策略、人类认知的系统性问题。从最表层看,它是显存不够、并发太高、参数被锁;往深处挖,它是 Transformer 注意力机制的先天局限、RLHF 对齐税的根本矛盾、持续学习中灾难性遗忘的不可避免;再往本质看,它是 AI 工业化进程中——算力成本、合规风控、用户体验三者博弈的必然产物。理解这些机制,不是为了抱怨模型"变笨了",而是为了在限制中找到最优解。
2026-04-16 11:02:50
286
1
原创 2026 AI生存指南:给大学生的行业地图与行动方案
模型格局重塑:Google Gemini 以极致性价比崛起;中国开源模型全面超越 Llama;开源与闭源差距缩小至仅4分推理模型成为标配:几乎所有主流模型都推出了 Reasoning 版本,推理模式可带来10-15分的综合评分提升Agent 时代到来:从代码补全到自主编程 Agent,Claude Code 仅用10个月登顶开发门槛急剧降低:自然语言编程、低代码AI化、模型路由等技术使非专业人员也能构建AI应用就业市场结构性迁移:初级白领岗位缩减,AI相关岗位爆发增长难度推荐选题核心技术。
2026-04-13 23:05:34
316
1
原创 给大学生说明白:什么是提示词工程,上下文工程,驾驭工程,环境工程!
《AI工程范式演进:从提示词工程到环境工程》摘要 本文系统梳理了AI应用开发的四次工程范式演进: 提示词工程(2023-2024):聚焦优化输入指令,通过角色设定、思维链等技术提升输出质量 上下文工程(2025):管理模型推理时的完整信息环境,核心是RAG检索增强生成和工具调用 驾驭工程(2026):设计外部约束与反馈系统,确保AI行为可控可靠 环境工程(2026+):构建多智能体协同的全局基础设施 这四代范式呈嵌套演进关系,每一代都解决前一代的局限性。文章详细阐述了各阶段的核心原理、关键技术。
2026-04-07 13:58:41
449
1
原创 学术翻译革命!PDFMathTranslate 2.0横空出世:公式不崩、排版不乱、术语精准,凌晨三点的文献再也不用“人肉”翻译了!
告别公式错乱、排版崩坏的噩梦!PDFMathTranslate 2.0 是一款革命性的开源工具,专为科研人员设计,能在翻译学术PDF时完美保留公式、图表、目录和注释等复杂布局。它支持100+种语言互译,并集成Google、DeepL、OpenAI及本地大模型等多种翻译引擎,用户可按需选择在线或离线模式,兼顾效率与数据安全。提供命令行、图形界面、Docker容器及Windows免安装版四种部署方式,无论你是技术大神还是电脑小白都能轻松上手。
2025-11-10 17:24:50
933
原创 深度解析Sora2:技术革命与创意产业的未来图景
Sora2标志着视频生成技术的"GPT-3.5时刻",实现了从视觉拟真到物理仿真的突破。其3D一致性架构能精准模拟复杂物理现象,使生成内容兼具真实性与创意性。产品生态构建"工具-社区-生态"三级体系,通过Cameo功能实现社交共创。商业应用重构行业成本结构,如电商直播人力成本降低92%。开源与闭源路线共同推动创意民主化,但也带来版权和伦理挑战。未来Sora2将向"通用世界模拟器"演进,连接虚拟与现实,重塑内容创作范式。
2025-10-02 20:51:08
1706
原创 豆包还有这牛的功能--AI播客
2025年6月17日,豆包电脑版全量上线了「AI播客」功能,豆包APP也已开启小流量测试,将于近期全量上线。用户只需上传PDF、网页链接,就能快速生成一段双人对话播客,AI提问,AI解读,把原本晦涩难啃的内容,讲成一场有逻辑、有节奏的对话。这一功能基于豆包大模型团队推出的语音播客模型,承诺提供高度拟人、流畅自然的语音效果。豆包AI播客功能的推出,是人工智能技术在内容创作和传播领域的一次创新尝试。
2025-06-29 18:51:39
1700
原创 Gemini CLI强势来袭!
Gemini CLI 是谷歌推出的一款开源的命令行界面工具,它能将谷歌的 Gemini AI 模型直接集成到开发者的终端中。该工具目前处于预览阶段,其目标是通过自然语言提示,为编码、研究和系统级任务提供支持。它连接到谷歌的 Gemini 2.5 Pro 模型,为开发者提供了一个简化的界面,可在命令行中编写和调试代码、自动化工作流程,以及通过谷歌搜索访问网页内容。Gemini CLI 作为一款将谷歌强大的 AI 模型集成到命令行界面的工具,具有诸多显著的优势。
2025-06-27 10:57:56
1762
原创 AI开发神器Codeflying:零基础也能创建专业应用
Codeflying(码上飞)是杭州码上飞科技推出的L4级智能软件开发平台,通过自然语言交互实现全流程自动化开发,让零基础用户也能轻松创建专业应用。该平台提供自然语言开发、全流程自动化、多场景适配等核心功能,支持Web/App开发及企业级定制服务,开发周期较传统方式缩短90%以上。相比Cursor等工具,Codeflying更加专注于降低技术门槛,而非专业开发者辅助。适用于个人创意实现、中小企业数字化转型及创业团队快速原型验证。用户可通过官网注册使用,通过清晰的需求描述即可生成完整应用,包含前后端代码及相关
2025-06-25 18:56:36
1089
原创 MiniMax - M1:开源大模型的革命性突破
MiniMax - M1是全球首个开源的大规模混合架构推理模型,具备4560亿参数和100万token上下文支持。其创新技术包括混合专家架构、闪电注意力机制和自研强化学习算法CISPO,显著提升了计算效率和推理性能。在长文本处理、编程能力和数学推理等任务中表现优异,超越多数开源模型并接近顶级闭源产品。应用领域涵盖文档分析、代码生成、企业智能体和创意写作。该模型通过Hugging Face和GitHub开源,推动了大模型技术的普惠化发展。
2025-06-24 07:00:00
1573
原创 开源AI神器Cherry Studio:全能本地部署
Cherry Studio:全能AI助手平台的创新与实践 Cherry Studio是一款国产开源AI工具,整合多模型对话、知识库管理、AI绘画等功能,支持本地部署确保数据安全。其核心优势包括:模块化设计(智能知识库、AI绘画、多模型切换)、高度定制化(自定义AI助手、参数微调)、全平台兼容性及开放API接口。特色功能涵盖快捷问答、智能翻译、内容总结及多服务商统一管理。部署方式灵活,支持Ollama本地模型配置,并提供丰富的数据备份方案。适用于企业、研究机构和个人用户,兼顾高效工作与数据隐私保护。
2025-06-23 17:48:43
1427
原创 ComfyUI:AI绘画的全新节点式革命
ComfyUI是一款基于节点的开源AI图像生成工具,专为Stable Diffusion设计。该工具采用模块化工作流设计,将图像生成过程分解为可自由连接的独立模块,用户可直观地进行拖拽组合实现复杂任务。支持多种SD模型、视频处理和动画生成功能,具备资源优化和完全离线运行特性。2024年成立Comfy Org团队后功能快速扩展,2025年推出V1桌面版降低使用门槛。应用场景包括艺术创作、图像修复、电商主图制作等,市场反馈显示其虽存在一定学习曲线,但凭借高度定制化能力和图形化界面获得广泛认可。作为AI绘画领域的
2025-06-23 17:38:05
1768
原创 Obsidian研究报告
Obsidian是一款基于Markdown的本地化知识管理工具,以其双向链接、图谱视图和丰富插件生态为核心特色。研究报告显示,该产品自2020年问世以来用户量增长超200%,现有55万活跃用户。相比Notion等云端工具,Obsidian在数据隐私和离线使用方面更具优势,但学习曲线较陡且协作功能不足。主要应用场景涵盖学习笔记、项目管理和个人知识体系构建,特别适合重视知识网络化管理的用户群体。市场反馈良好,但用户期待改进移动端体验和降低入门门槛。
2025-06-23 17:30:14
1529
原创 Notebooklm研究报告
NotebookLM:AI驱动的智能知识管理工具 NotebookLM是Google推出的一款创新AI知识管理工具,通过多源输入(支持PDF、网页、视频等50种来源)、精准问答(带引用功能)和自动摘要等功能,帮助用户高效处理信息。其独特亮点包括音频概述(可生成AI主持的播客)和协作共享功能,适用于学术研究、企业办公和个人知识管理。近期新增"自动找资料"功能,能智能推荐研究资源。NotebookLM采用精简团队开发,强调数据隐私(不用于模型训练),市场表现强劲,月访问量增长56%,尤其受到
2025-06-23 17:19:47
1059
原创 字节跳动Coze平台调研报告
客服机器人:和府捞面的产品经理利用Coze平台仅用3周时间就搭建起了一套单工作流的智能体系统,该系统通过深度挖掘顾客反馈数据,精准识别顾客评价中的情感倾向及关键评价要素,并以JSON格式输出为API,方便直接集成到企业系统中,助力其快速、精准地优化经营策略,节省了大量人力成本。不过,在国际市场上,由于其国内版仅支持豆包、通义等少数模型,模型选择相对较少,与一些支持全球主流模型的平台相比,还存在一定的挑战。此外,用户还可以通过设置触发器和条件判断,实现状态机的设计,使智能体能够根据不同的状态进行相应的处理。
2025-06-22 08:00:00
1652
原创 MCP与A2A协议研究报告
AI交互协议研究报告摘要 MCP(模型上下文协议)与A2A(智能体间协议)是两大新兴AI交互标准。MCP由Anthropic推出,标准化AI模型与外部工具/数据源的交互,采用客户端-服务器架构,通过JSON-RPC实现统一接口,解决传统API集成碎片化问题,适用于开发工具集成、企业自动化等场景。A2A由Google主导,专注于智能体间协作,支持跨平台任务分配与执行,通过"Agent Card"发现能力,适用于供应链管理、医疗协作等复杂流程。两者互补:MCP赋能单个智能体访问资源,A2A协
2025-06-21 15:16:03
904
原创 Google DeepMind Research研究报告
Google DeepMind研究团队发布开源项目库DeepMind Research,推动AI技术发展与应用。该项目涵盖强化学习、图神经网络等前沿领域,提供代码实现和模拟环境,支持学术研究、教育和产品开发。DeepMind通过AlphaGo、AlphaFold等突破性成果展现了AI在游戏、生物等领域的潜力。该项目创新性地融合多学科方法,注重模型可解释性,在科研、工业和社会服务领域具有广阔前景。未来需在技术发展的同时关注伦理问题,确保AI技术安全、负责任地发展。
2025-06-21 15:02:11
1504
原创 Windows/Linux 系统常用命令总结
本文总结了Windows和Linux系统最常用的命令行工具,帮助用户提高工作效率。Windows部分涵盖文件操作(dir、cd、copy等)、系统管理(ipconfig、tasklist)和实用工具(cmd、powershell)。Linux部分包括文件和目录命令(ls、rm、mv)、系统管理(top、ps、df)以及网络和权限管理(ifconfig、sudo)。文章采用表格形式清晰展示命令说明和使用示例,可作为日常系统管理和维护的快速参考手册。掌握这些基础命令能显著提升计算机操作能力。
2025-06-21 14:43:59
333
原创 Lovart研究报告:AI设计领域的颠覆者与新范式
Lovart是一款革命性AI设计工具,整合多种先进模型实现自然语言生成设计、智能任务拆解和多模态内容输出。适用于品牌策划、营销宣传、原型设计等场景,显著提升设计效率。其"Design Agent"理念提供专业级创意服务,支持实时协作与画布编辑。尽管在视频生成和细节处理上仍有不足,但作为设计领域颠覆者,Lovart正重新定义行业标准,让专业设计变得更高效便捷。
2025-06-21 14:33:19
2435
原创 Second Me:开源AI身份革命与数字自我重塑
Second Me项目开创性地构建了一个开源、去中心化的AI数字身份系统,让用户能创建完全私有的AI分身。其核心技术包括三层记忆模型和个性化对齐架构,确保AI能精准代表用户。所有数据本地处理,用户完全掌控隐私。应用场景覆盖社交、职场、内容推荐等多个领域,可自动完成复杂任务。这一创新既解决了中心化AI的数据隐私问题,又为数字身份管理提供了新范式,未来有望成为AI时代的重要基础设施。
2025-06-21 14:27:12
1241
原创 深入解析YOLOv11:实时目标检测的最新进展
YOLOv11作为YOLO系列最新版本,在保持实时检测优势的同时,通过引入C3k2块、空间-通道分离下采样(SCDown)和多分支辅助特征金字塔网络(RepHELAN)等创新技术,显著提升了检测精度和泛化能力。本文系统梳理了YOLO系列算法的发展历程,详细解析了YOLOv11的核心算法原理和网络结构特点,并提供了完整的安装部署指南。YOLOv11的推出标志着实时目标检测技术迈上新台阶,为自动驾驶、智能安防等应用场景提供了更强大的技术支持。
2025-06-20 13:41:23
504
原创 Ollama本地化部署指南
Ollama是一个开源工具,旨在简化大型语言模型(LLM)的本地部署和使用过程。它允许用户在个人计算机上运行各种先进的AI模型,如DeepSeek-R1、Qwen 3、Llama 3.3、Qwen 2.5‑VL和Gemma 3等,无需依赖云服务。本地化运行:所有模型在本地设备上运行,保护隐私和数据安全多平台支持:兼容Windows、macOS和Linux系统简单易用:提供简洁的命令行界面和API接口GPU加速:支持NVIDIA和AMD GPU加速推理模型管理:便捷的模型下载、切换和管理功能。
2025-06-01 17:38:52
2080
原创 本地部署大模型 vs 网页版大模型区别
fill:#333;color:#333;color:#333;fill:none;本地服务器/工作站硬件资源私有化部署GPU集群高速存储模型文件训练框架推理引擎。
2025-06-01 17:13:04
1536
原创 FastGPT与Dify智能体搭建平台详解
智能体搭建平台是指为用户提供构建、部署和管理AI应用的一站式解决方案。这类平台通常集成了大语言模型调用、知识库管理、工作流编排等功能,使得开发者能够以低代码甚至零代码的方式快速构建智能应用。随着大语言模型技术的成熟,FastGPT和Dify等平台应运而生,为AI应用开发提供了便捷高效的工具。FastGPT是一个基于LLM大语言模型的知识库问答系统,将智能对话与可视化编排完美结合,让AI应用开发变得简单自然。它是一个开源的AI知识库构建平台,具备数据处理、模型调用、RAG检索及可视化AI工作流编排等核心功能。
2025-06-01 12:23:04
899
原创 MCP(模型上下文协议)详细介绍
MCP(模型上下文协议)作为一种开放标准,为大型语言模型与外部世界的交互提供了统一的接口。它解决了数据孤岛问题,增强了数据安全性,并促进了开放生态的形成。通过MCP,AI应用能够更智能、更安全地访问和操作各种数据源和工具,从而提供更丰富、更实用的功能。虽然MCP仍处于发展早期,面临一些挑战,但其开放性和灵活性为AI应用的未来发展提供了广阔空间。随着更多开发者和企业的参与,MCP生态将不断壮大,为AI应用带来更多可能性。
2025-06-01 12:19:57
1331
原创 Agent(智能体)详细介绍
AI Agent(智能代理)代表了人工智能从被动响应向主动行动的重要转变。通过结合大型语言模型的强大理解和生成能力,以及与外部工具和环境的交互能力,AI Agent能够自主完成复杂任务,为用户提供全新的智能辅助体验。随着技术的不断发展,AI Agent将在个人助理、企业应用、创意创作、教育学习和专业研究等多个领域发挥越来越重要的作用。同时,我们也需要关注安全控制、幻觉问题、隐私保护和资源消耗等挑战,确保AI Agent的发展方向符合人类的长远利益。
2025-06-01 12:18:44
997
原创 RAG(检索增强生成)详细介绍
RAG(检索增强生成)技术通过结合信息检索和大语言模型的生成能力,有效解决了大模型在实际应用中面临的知识局限性、幻觉问题和数据安全性等挑战。它使AI系统能够"查阅资料"后再回答问题,大大提高了回答的准确性、可靠性和实用性。RAG的实现涉及数据准备和应用两个主要阶段,包括数据提取、文本分割、向量化、数据入库、检索、提示注入和生成等关键步骤。通过合理设计和优化这些环节,可以构建出高效、准确的RAG系统,为各种专业领域和应用场景提供智能问答和信息处理能力。
2025-06-01 11:43:30
866
RAG技术详解:检索增强生成提升大型语言模型实时性和准确性
2025-06-01
【大模型分类详解】基于Transformer与CNN/RNN架构的语言、视觉、语音及多模态大模型应用领域与技术原理分析
2025-06-01
大模型蒸馏技术:AI模型压缩与高效部署的深度解析及应用探索
2025-06-01
【deepseek模型应用】不同规模deepseek模型特性分析及其应用场景汇总:从小模型到极大模型的全面解析
2025-06-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅