- 博客(231)
- 资源 (3)
- 收藏
- 关注
原创 【AGI】PDE 产品开发工程:从软件工匠到价值创造者的进化指南
《PDE 产品开发工程:从软件工匠到价值创造者的进化指南》提出,在AI时代,工程师的核心价值已从“写代码”转向“创造产品价值”。PDE(Product Development Engineering)强调工程、产品与商业思维的融合,通过六种思维转变(如从“技术实现”到“价值验证”)和BML循环(Build-Measure-Learn)实现快速迭代。
2026-06-18 16:00:40
59
原创 【AGI】Loop Engineering:让系统“活起来“的工程哲学
Loop Engineering(循环工程)是一种让系统具备持续感知、反馈与进化能力的工程哲学,其核心在于构建"输入→处理→输出→反馈"的闭环。系统通过负反馈(维持稳定)与正反馈(驱动增长)的协同实现动态平衡。现代软件系统通过三层循环(战略/工程/运维)实现多尺度优化,而AI时代的Agentic Loop(如AutoGPT)进一步将循环抽象为"感知→决策→执行"的智能体行为。高质量循环需遵循指标因果性、实时反馈、分层处理等原则,最终赋予系统持续进化的能力。循环设计的优劣直接决定系统的适应性与生命力。
2026-06-18 11:30:57
124
原创 【AGI】DeepSeek-V4:百万上下文时代的开源宣言
DeepSeek-V4:开源大模型迈向百万上下文时代 DeepSeek团队推出1.6万亿参数的V4系列大模型,实现三大突破:1)创新的mHC架构确保超大规模模型训练稳定性;2)混合注意力机制(CSA+HCA)实现百万token上下文的高效处理;3)采用改进版Muon优化器提升训练效率。V4-Pro和V4-Flash双模型分别针对高性能与低成本场景,训练数据量达33T tokens。关键技术包括流形约束超连接、压缩稀疏注意力等,使百万token推理成本仅为前代的27%。“DeepSeek”全民开源"理念。
2026-04-25 18:18:02
872
原创 【2026 RAG】技术前沿:从多模态记忆图谱到话语级检索,下一代 RAG 全解析与实战指南
2026年,RAG(检索增强生成)技术正经历一场范式级跃迁。阿里通义实验室开源的 VimRAG 将推理过程建模为动态有向无环图,让 AI 同时理解文本、图像和视频;康奈尔大学的话语级索引方案在不微调大模型的前提下,将标注匹配率从 39.7% 拉升至 62.0%;DaPT 的双流并行架构则攻破了多语言多跳推理的壁垒。
2026-04-25 15:50:16
525
原创 【AGI】Deep Agents 深度解读:Harness 工程如何让 AI Agent 真正可靠
本文深度解析了AI Agent系统的可靠性问题,指出模型之外的关键在于Harness工程基础设施。通过LangChain的Deep Agents框架,揭示了主流Agent系统共同遵循的四大核心原语:规划与任务分解、文件系统作为工作记忆、子Agent的上下文隔离、以及验证闭环机制。文章强调,真正的Agent可靠性来源于精心设计的上下文工程和持久化机制,而非单纯的模型能力。这些工程实践使Agent能够跨越会话限制,在复杂任务中保持进度追踪和状态持久性,从而成为生产环境中可靠的智能操作者。
2026-04-14 10:39:48
362
原创 【AGI】AI Agent 的前世今生:从理论奠基到工程落地的全景解读
AI Agent技术全景:从理论到实践的关键突破 本文系统梳理了AI Agent的发展历程与技术体系,重点解析了三大核心理论(ReAct推理执行循环、Plan-and-Execute任务分解、Reflection自我迭代)如何支撑现代Agent框架。通过对比主流框架特性,指出工程实践中的两大共识:文件系统作为上下文载体和代码执行作为通用解决方案。文章揭示了Agent框架的三大组件(推理引擎、执行引擎、上下文工程),特别强调上下文工程是决定Agent智能水平的关键变量。
2026-04-14 10:32:53
314
原创 【2026 OPC计划】2026“养龙虾“全攻略:OpenClaw及国产版龙虾使用体验、技巧与避坑指南
2026 年的"龙虾大战"本质上是一场 AI Agent 的技术平权运动——大厂们把原本属于极客的命令行,封装成了普通人也能点的图标。但技术平权不意味着零风险,理解你所使用的工具、建立合理的安全边界、从小处着手逐步扩展,才是"养虾"的正确姿势。
2026-04-08 17:33:22
1321
1
原创 【AGI】Harness Engineering 深度解析:AI Agent 时代的工程范式革命
Harness Engineering 的核心思路与传统的"教"截然不同:与其教 Agent 怎么做,不如让它自己验证做得对不对。 靠代码、linter、测试来保证正确性,而不是靠 LLM 的"直觉"。这些机械化检查不会出错,不会遗忘,也不会被上下文压缩掉。就像 CI/CD 对人类开发者的作用——自动拦截问题。只不过这次拦截的时机更早,不是合并前,而是写代码前。
2026-04-08 16:04:50
426
1
原创 【具身智能】RK3576 + ROS2 Humble 实战:SLAM 建图与 Nav2 导航从零到部署
本文档详细介绍了在RK3576开发板上基于ROS2 Humble实现SLAM建图与Nav2导航的全流程。内容涵盖环境配置、URDF建模、SLAM Toolbox建图、Nav2导航系统部署等关键技术,并针对工业级应用场景提供性能调优与问题排查方案。通过Gazebo仿真与TurtleBot3模型验证系统功能,帮助开发者从零构建完整的自主移动机器人系统。文档特别强调了SLAM Toolbox的图优化框架和Nav2的行为树机制等核心技术优势,为工程化部署提供实用指导。
2026-03-24 21:15:58
603
1
原创 【2026 OPC计划】如何用AI赋能GEO
GEO(生成式引擎优化)是品牌在AI时代的新战场,核心在于让AI主动推荐你的产品而非依赖传统搜索流量。与SEO不同,GEO注重权威性(数据支撑、多源验证)、语义密度(精准回答具体问题)和用户提问匹配度。通过四步工作流——诊断品牌AI可见性、识别高价值问题词、改造内容结构、持续监测表现——品牌可提升在AI推荐中的心智份额。案例显示,如薇诺娜凭借医学背书和结构化内容在敏感肌推荐场景占据优势。未来,GEO将重塑用户决策路径,品牌需从“被找到”转向“被信任”。
2026-03-11 08:38:12
528
1
原创 【2026 OPC计划】QoderWork – 阿里巴巴Qoder团队推出的桌面端AI智能体
阿里巴巴Qoder团队推出桌面端AI智能体QoderWork,支持macOS和Windows双平台,主打本地化安全执行与自然语言交互。用户通过简单指令即可完成复杂任务,如Excel数据分析生成PPT、文件批量管理、文献整理等,所有操作均在本地沙盒运行,保障数据隐私。新增功能包括模型分级选择器、技能广场及沙盒环境,覆盖教育、销售、科研等多场景需求。例如,教师可快速生成成绩分析报告,销售人员一键获取销售洞察。QoderWork通过集成大模型与Agent框架,显著提升工作效率,未来将持续优化行业适配性。(
2026-03-04 22:53:11
1968
1
原创 【2026 OPC计划】OpenClaw国内懒人包一键部署,飞书/钉钉/QQ一键安装,免费无限Token使用
OpenClaw懒人包一键部署指南:提供飞书/钉钉/QQ一键安装,支持免费无限Token使用。用户只需下载客户端(http://ai.yuanqidesk.com),安装后扫码注册即可使用。详细配置教程包含飞书和钉钉的机器人创建流程:飞书需创建自建应用并配置权限,钉钉需注册企业账号并创建机器人。安装后即可实现远程AI助手功能,通过聊天软件发送指令操作电脑。注意需保持PC端和AI Bot同时在线,配置失败时可尝试重启客户端。
2026-03-04 22:03:53
1051
原创 【2026 OPC计划】OpenClaw对接企微/钉钉/飞书/QQ
本文介绍了OpenClaw对接企业微信、钉钉、飞书和QQ四大平台的详细操作指南。主要内容包括:1)各平台开发者后台的配置步骤,如获取应用凭证、设置回调地址等;2)OpenClaw容器内的具体配置命令,涵盖参数设置、渠道启用和验证测试;3)对接后的功能验证方法。该指南提供了从平台注册到最终对接的全流程说明,帮助用户快速实现OpenClaw与主流办公平台的集成。
2026-03-04 14:19:55
1103
1
原创 【2026 OPC计划】3分钟部署OpenClaw(Mac/Windows/阿里云)
本文介绍了OpenClaw在MacOS和Windows系统上的快速部署方案。MacOS用户可通过Node.js环境直接安装,支持国产模型供应商(如Kimi、Qwen等)并提供免费调用额度。Windows用户需先安装WSL2和Ubuntu系统,再通过Node.js完成部署。两种系统均支持命令行交互和后台守护进程运行,安装过程简单快捷,适合开发者快速体验OpenClaw的功能。
2026-03-01 19:17:14
3098
原创 【2026 OPC计划】AI的贾维斯时刻-OpenClaw
OpenClaw 的崛起不仅仅是一个开源项目的成功,它更被视为 2026 年 AI Native 开发范式的一次标志性事件。
2026-03-01 12:32:50
1751
1
原创 【2026 OPC计划】3分钟部署你的AI助理-CoPaw
摘要: CoPaw是阿里开源的个人AI助手,支持钉钉/飞书等多平台对话和定时任务。具备PDF/Office处理、新闻摘要等技能,支持自定义扩展,所有数据本地化存储确保隐私安全。部署流程简单:通过阿里云计算巢填写参数→确认订单→获取访问地址→配置百炼API_KEY和模型即可使用。项目已开源在GitHub,完整功能可查阅官方文档。
2026-03-01 11:24:45
1572
原创 【2026 OPC计划】AI编程助手-OpenCode
OpenCode是一款完全开源免费的AI编程助手,支持终端、桌面应用和IDE插件等多种使用场景。它内置75+种AI模型,并提供精选免费模型OpenCode Zen。安装需注意原生不支持Windows系统,可通过WSL或Docker解决。核心功能包括Plan/Build双模式(安全规划与代码执行)、文件操作和会话管理等。使用技巧包括善用AGENTS.md项目描述文件、@符号引用文件等功能。虽然功能强大,但仍需开发者自行验证AI生成的代码。OpenCode特别适合全栈开发者、独立开发者或开源项目参与者,是Cop
2026-02-23 13:30:54
1458
1
原创 【多模态】Seedance2.0正式上线! AI导演为你的创意灵感填砖加瓦!
即梦Seedance2.0正式上线,支持图像、视频、音频、文本四种模态输入,让视频创作更自由可控。新版本通过"@素材名"实现精准参考,可还原画面构图、复刻镜头语言,并支持视频延长与编辑。参数方面,支持最多9张图片、3个视频(总15秒)、3段音频输入,生成4-15秒视频。该版本显著提升了动作流畅度、物理合理性和风格稳定性,解决了人脸一致、镜头衔接等创作痛点,让用户真正实现"导演式"的多模态创作体验。
2026-02-10 17:50:24
3379
1
原创 【Agent】Agent Skills通关秘籍
Agent Skills:AI智能体的模块化能力扩展新标准 Agent Skills是Anthropic推出的新一代智能体能力扩展标准,通过模块化设计解决传统AI能力扩展的痛点。其核心创新在于渐进式披露机制和文件系统基础架构:将重复性操作流程封装为可复用的Skill模块,包含指令文档、参考资源、执行脚本等组件。与MCP协议相比,Skills实现了真正的按需加载,仅在需要时才加载具体操作说明,避免了上下文窗口的浪费。文章系统性地介绍了Skills的工作原理、生态定位、实践方法及安全考量,展示了其作为AI能力扩
2026-01-27 20:33:28
1018
1
原创 【具身智能】RoboChallenge新王登基-Spirit v1.5
RoboChallenge作为2025年新推出的具身智能标准化评测平台,聚焦真实机器人执行能力,通过统一硬件和任务集(Table30)评估模型的跨场景操作稳定性。Spirit v1.5在该评测中凭借整体任务完成度和长序列执行稳定性获得综合第一,其技术核心在于: 统一建模:采用Vision-Language-Action(VLA)架构,整合感知、决策与动作生成,减少模块间误差累积; 真实数据训练:放弃传统“干净”演示数据,引入含失败调整的多样化轨迹,提升泛化与容错能力;
2026-01-14 11:41:18
871
1
原创 2025年-波澜壮阔的AI大模型科技盛宴
2025年AI大模型发展进入深度融入产业的关键阶段,呈现出三大特征:技术突破从规模竞赛转向范式创新,可验证奖励强化学习(RLVR)和多模态模型推动认知能力跃升;产业应用从概念验证走向价值落地,在金融、医疗、教育等领域实现规模化部署;竞争格局从巨头垄断演变为"通用底座+垂直应用"的生态协同,开源模型加速技术普惠。同时,行业面临数据隐私、算法偏见等挑战,未来将朝着更智能、更通用、更协同、更可信的方向发展,推动AI从"工具"向"伙伴"转型。
2025-12-27 14:40:34
1699
1
原创 【狂飙全模态】灵曦星灿视频助手-影视级音画同步视频生成
字节跳动Seed团队推出的Seedance 1.5 Pro音视频创作模型,通过原生音画同步、电影级质感和多场景适配三大突破,实现零门槛影视级创作。该模型支持文生视频、图生视频等多种生成方式,具备毫秒级音画对齐、专业运镜效果和高效叙事能力,可广泛应用于个人创作、企业生产和教育领域。用户通过简单三步即可生成有声视频,大幅降低专业创作门槛。目前已在豆包APP和火山引擎平台开放体验,提供API接入服务。
2025-12-24 17:39:56
1554
1
原创 【狂飙全模态】CosyVoice3入门及实战(一键启动)
CosyVoice3是一款基于大语言模型的高质量多语言文本转语音(TTS)系统,支持跨语言语音克隆、发音控制和流式推理。最新版本Fun-CosyVoice 3.0在内容一致性、说话人相似度和韵律自然度上全面超越前代,支持9种主流语言和18+中文方言,具备低延迟(150ms)和指令驱动功能。用户可通过一键启动脚本或手动安装快速体验,还提供Docker部署、vLLM和TensorRT-LLM加速方案。评估显示其CER/WER指标优于多数商业系统,尤其在高难度场景表现鲁棒。
2025-12-20 13:54:52
1686
1
原创 【狂飙全模态】狂飙AGI-Wan2.1文图生视频实战部署-ComfyUI篇
本文介绍了在ComfyUI上部署Wan2.1文生视频和图生视频模型的实战方法。主要内容包括:1)在魔搭Notebook中通过终端安装ComfyUI及依赖;2)下载文生视频模型组件并配置工作流;3)本地部署图生视频工作流所需的硬件检查与安装步骤。文章详细演示了从环境搭建到工作流运行的全过程,包含常见问题解决方案,如Git克隆失败的处理方法。通过本教程,读者可以掌握在ComfyUI平台上实现文本/图像到视频生成的核心技术流程。
2025-12-19 11:34:58
1181
原创 【狂飙全模态】狂飙AGI-Wan2.1文生视频实战部署-Gradio篇
本文介绍了在魔搭社区免费GPU上部署Wan2.1文生视频模型的WebUI界面的完整流程。主要内容包括:1)通过魔搭社区提供的Notebook脚本快速搭建独占算力通道;2)LoRA模型的应用方法;3)模型组件下载与参数配置说明。教程详细展示了从环境搭建到最终生成视频的全过程,并提供了DiffSynth-Studio开源引擎的安装指南。用户可通过该方案独享GPU资源,灵活调整参数,实现个性化的文生视频创作体验。文中包含多个操作截图和关键参数说明,适合开发者快速上手实践。
2025-12-18 09:26:57
643
1
原创 【狂飙全模态】狂飙AGI-智能视频生成助手
"狂飙AGI-智能视频生成助手"是基于阿里云百炼平台开发的AI视频生成工具。项目通过调用DashScope的VideoSynthesis API实现文本到视频的自动生成功能。使用流程包括:1) 获取阿里云API Key;2) 配置Python虚拟环境;3) 实现核心视频生成功能;4) 构建Gradio交互界面。系统支持自定义视频分辨率(1920*1080等)和模型选择(wan2.2-t2v-plus),用户只需输入文本描述即可快速生成对应视频。
2025-12-10 17:41:44
393
1
原创 【狂飙全模态】狂飙AGI-智能语音助手
"狂飙AGI-智能语音助手"项目基于阿里云百炼API开发,提供文本转语音功能。项目实现了通过Gradio构建交互界面,支持多种音色选择(如知性女声、甜美女声等),并可调节语速(0.5-2.0)和音调(0.5-1.5)。核心代码使用DashScope的qwen-tts模型进行语音合成,包含音频下载进度条显示功能。用户只需输入文本、选择参数即可生成自然语音,适用于多种语音合成场景。项目环境配置简单,依赖Python 3.10及相关库包,通过API Key即可快速接入阿里云语音服务。
2025-12-10 17:39:59
603
原创 【狂飙全模态】狂飙AGI-智能代码生成助手
本文介绍了基于阿里云百炼平台开发的"狂飙AGI-智能代码生成助手"项目。该项目利用通义千问Qwen2.5-Coder模型,通过自然语言描述自动生成Python代码。文章详细说明了环境配置步骤,包括获取API Key和创建虚拟环境,并提供了完整的代码实现,展示了一个基于Gradio的交互式界面。用户只需输入代码需求描述,系统即可返回相应的Python代码实现,支持快速排序、二分查找等常见算法示例。该项目为开发者提供了高效的代码生成工具,可显著提升编程效率。
2025-12-09 17:13:40
512
原创 【狂飙全模态】狂飙AGI-智能图文理解助手
本文介绍了基于智谱GLM-4V模型的智能图文理解助手开发过程。项目通过智谱API获取访问权限,使用Python搭建开发环境,实现了图像base64编码和AI分析功能。核心代码包含图像编码转换、API调用接口和Gradio交互界面构建,最终形成一个可上传图片并获取AI分析结果的Web应用。该工具能够理解图片内容并回答相关问题,展示了多模态AI在图像理解领域的应用潜力。
2025-12-03 10:28:52
551
原创 【狂飙全模态】狂飙AGI-智能图像生成助手
基于智谱AI的CogView模型,提供便捷的文字转图像功能。项目通过Gradio构建交互界面,用户输入文字描述即可生成1024x1024分辨率的精美图像。实现步骤包括:1)获取智谱API Key;2)配置Python虚拟环境;3)编写图像生成核心代码;4)设计用户友好界面。该工具支持多种风格图像生成,并提供示例提示词参考,适合创意设计、艺术创作等场景使用。
2025-12-03 10:25:07
666
2
原创 【狂飙全模态】狂飙AGI-智能答疑助手
本文介绍了"狂飙AGI-智能答疑助手"项目的开发过程,包括智谱API Key获取、虚拟环境配置和代码实现。项目基于GLM-4模型,通过Gradio构建交互界面,实现了一个具有对话记忆功能的智能问答系统。关键步骤包括API配置、Chatbot类设计、对话处理函数实现以及界面交互逻辑搭建,最终形成一个完整的AI助手应用。
2025-12-02 21:08:40
555
1
原创 【项目】基于多模态信息抽取的菜品知识图谱构建
本文提出基于多模态信息抽取的中餐菜品知识图谱构建方法,针对现有食品分析研究存在的细粒度标注不足和跨模态关联模糊等问题,创新性地构建了首个大规模中餐跨模态食材数据集CMIngre。该数据集包含8,001组多源样本,标注了429种中式食材和95,290个精准边界框,并建立了层次化食材分类体系。研究提出食材检测和跨模态检索两项核心任务,通过边界框融合与过滤策略优化检测性能,并创新性地融合单个食材语义与组合关系进行检索。实验结果表明,所提方法在中餐细粒度理解任务中具有显著优势,为食品智能分析提供了可靠的技术基础。
2025-11-28 10:53:45
1229
原创 【AGI】AI大模型持久战
中国AI大模型发展迅猛,DeepSeek R1与OpenAI比肩,开源策略推动技术追赶。文心5.0实现全模态创新,字节跳动Seedream 3.0媲美Midjourney。美国Anthropic禁令下,智谱等企业快速响应,提供无缝替代方案。Gemini 3.0发布凸显基座模型重要性。中国AI需持续突破技术瓶颈,保持开放优势,在中美"斗而不破"的竞争中走出自主道路。
2025-11-19 14:49:51
782
1
原创 【Agent】Agent各模块基本原理及代码实现
本文介绍了Agent系统中两大核心模块的工作机制:Memory模块通过对话缓冲窗口、摘要和混合模式处理长上下文,并实现记忆持久化;规划模块采用反思机制(Reflection)优化决策过程,结合SmartLLMChain实现智能推理,同时解析了CoT(思维链)原理及FewShot/ZeroShot/Auto等变体。系统通过多模式记忆管理和规划策略提升交互质量,为AI智能体开发提供技术参考。
2025-11-17 11:41:44
777
原创 【Agent】AI Agent架构趋势及演进
本文系统介绍了AI Agent架构的发展趋势和技术框架,涵盖单Agent与多Agent系统设计、提示词工程与上下文管理、SpringAI开发框架等关键技术。重点阐述了AI原生应用参考架构,包括Nacos配置管理、Higress AI网关、RocketMQ会话状态管理等核心组件解决方案。同时深入探讨了AI应用可观测性体系,包含OpenTelemetry全链路追踪、关键指标监控以及基于LoongSuite开源工具的数据采集评估方法,为构建高效可靠的AI应用提供了全景式技术参考。
2025-11-13 17:18:02
831
原创 【AIGC】大模型面试高频考点19:常见的17种RAG方案
本文系统梳理了当前主流的检索增强生成(RAG)技术体系,从基础分块到高级优化方法共分为四大类:1)基础分块与语义优化,包括简单切块、语义切块和上下文增强;2)检索优化与重排序,涵盖文档增强、查询转换和重排序技术;3)智能路由与自反思机制,如反馈闭环和自适应RAG;4)结构化与多源融合,包括知识图谱等。文章通过具体示例和评估结果(0.2-0.86分)展示了不同技术的实现难度与应用场景,其中自适应RAG评分最高(0.86分),适用于复杂多变的业务场景。
2025-10-30 09:25:56
1621
原创 【RAG】Agentic RAG架构的基本原理与应用入门(四):Agentic RAG
Agentic RAG(智能体增强检索生成)是传统RAG框架的升级版本,通过引入智能体(Agent)实现更智能的检索决策和交互。该架构结合了传统RAG的知识库检索和Web搜索等外部工具,形成一个动态决策系统。文章通过Python代码示例展示了如何构建包含本地知识库检索和实时网络搜索的Agentic RAG系统,并演示了其处理不同查询时的智能路由能力。该系统能根据问题类型自动选择检索方式,如查询"AI Agent是什么"时会优先调用本地知识库,而询问"OpenAI最新新闻&quo
2025-10-19 08:02:10
717
原创 【RAG】Agentic RAG架构的基本原理与应用入门(三):使用LangGraph实现ReAct代理
本文介绍了如何使用LangGraph框架从零开始实现ReAct代理。首先讲解了LangGraph与LangChain的关系及其优势,接着详细展示了实现步骤:1)导入依赖包并定义Agent状态;2)通过SerperAPI实现实时联网检索工具;3)构建包含工具节点、模型节点和路由的工作流;4)定义问答流函数并进行测试。文章包含完整的代码示例,包括工具函数定义、工作流构建和测试验证,为开发者提供了实现AI代理的实用指南。
2025-10-18 08:41:06
906
最强技术的数字人AI MV,OmniHuman-1+一致性,AI MV的新高度,《白色皮卡丘》完整版
2025-06-14
【人工智能大模型】大模型方向市场分析:产业规模、政策引导、人才需求及薪资情况综述
2025-06-13
【大模型时代前沿技术】Transformer与Mamba架构对比及具身智能发展:智能涌现与Agent应用综述
2025-06-13
Model Convetor
2022-02-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅