- 博客(649)
- 资源 (25)
- 收藏
- 关注
原创 大模型跑在端侧,到底有多难?我们踩过的那些坑
想让客户买单,必须将模型推理用到的所有工具做到极致好用,比如驱动、SDK、量化工具、性能分析工具、Debug工具,对于一家中小规模公司,那简直是灾难。近两年,我一直在端侧 AI 这条路上摸爬滚打,模型格式转换、模型量化、算子开发、性能调优、推理框架支持等,积累了一小点经验,今天不讲理论,就跟你聊聊那些。模型在变小(同等能力下参数量在缩减),芯片在变强(每一代 NPU 的能力都在翻倍),工具链在变好(虽然还不够好,但比两年前强太多了)。但正因为难,才值得做——等到它变简单的那天,红利也就没了。
2026-05-27 20:50:14
293
转载 WhisperPipe 实时流式语音识别新架构,GPU内存峰值降低48%,中位延迟仅89ms
大规模Transformer模型如Whisper在离线语音识别上表现出色,但直接将其应用于实时流式场景会面临三大难题:假设漂移(反复修订已输出文本)、超线性重计算开销(音频越长解码越慢)、静音敏感(噪声触发虚假转录)。,一个专为连续实时转录设计的流式架构,通过混合VAD、动态缓冲重叠窗口、两阶段提交策略和时间戳引导的音频裁剪,在2.5小时多样化音频测试中实现了。:Whisper本身可输出词级时间戳,这些时间戳可指导原则性的流式决策——在稳定前缀的结束时间精确裁剪活动缓冲,从而避免重复解码整个历史。
2026-05-26 22:33:54
34
转载 实测DeepSeek V4 Pro接入CodeX,今后CodeX也可以使用Deepseek了。
两边协议不一样,直接改地址等于把英文邮件发到中文客服,对方收到了,但格式对不上,工具调用、流式输出、上下文管理都可能出问题。今天的 Codex 不止会写代码,它有自己的 Computer Use、内嵌浏览器、截图能力、90 多个插件和 Skills、多 Agent 并行、定时任务、Git 管理,在开始的时候若是没有备份,到后面可能自己的CodeX都运行不了,所以务必备份,简单来说就是复制这个,万一这玩意出错可以直接替换。先点「Codex 接入」。写文章、跑调研、搭工作流、改代码、管项目,全部在这一个地方。
2026-05-25 23:14:22
258
原创 AI生成的前端界面,为什么总是不够好看?
把设计师脑子里那些隐性知识,比如排版规则、间距规范、视觉层级怎么拉开,整理成 AI 能看懂的格式,直接喂给 Claude、Cursor 这类编程助手。设计师靠的是多年积累的「直觉」——哪里该留白,间距给多少,字号怎么拉开层次,这些东西他们不用想,看一眼就知道怎么处理。好处是:组件本身就是经过设计打磨的,AI 只负责「拼装」,而不是「设计」,出来的界面质量自然稳定多了。不是让 AI 凭空发挥,而是给它一套约束框架,在框架内走,出来的东西就不会太歪。有参考,AI 就有方向,不用它自己乱猜「好看是什么样的」。
2026-05-07 22:32:59
317
转载 Hermes Agent 01 | 全景图:Hermes Agent 的三层架构与核心理念
当前实现是“尽力而为”的学习闭环,不是“每做完一个复杂任务都确定性地生成一个技能文件”的编译器。如果你平时也用 Claude Code、Codex CLI 这类终端型编码代理,理解 Hermes 最好的方式,不是问“谁更强”,而是先问“它们优先优化的到底是什么”。Python 做控制面,SQLite 做单用户默认状态库,记忆与技能用文件,控制面偏长驻、执行面可替换。如果是续聊会话,Hermes 甚至会优先从 SQLite 中取回先前存下来的 system prompt 快照,而不是重新读磁盘拼装一份新的。
2026-04-21 22:51:15
153
转载 Claude Code 最佳实践
告诉Claude Code自己的需求,Claude Code会根据需求制定一份完善的执行计划,不清楚的地方它会很智能的弹出对话框或者选择面板,让用户做决定。执行计划时如果前面已经经过多轮讨论了,建议再新开一个会话,告诉Claude Code计划文件的地址,再开始执行。介绍了Claude Code的安装、国产大模型配置和常用的基础操作,本篇以实际工作为背景,结合官方文档说明,总结Claude Code的最佳实践,最后再自定义完善。文档,后续工程变更了继续执行一次该命令,会继续分析并将结果更新到文档中。
2026-04-15 23:41:18
163
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。AI能清晰区分"探索性搜索"和"结论性验证",彻底告别重复查询的无效循环。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。
2026-04-14 22:29:40
598
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。以前的RAG只能处理文本,VimRAG让AI真正具备了"图文视频一起看"的能力。
2026-04-14 22:29:40
594
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。以前的RAG只能处理文本,VimRAG让AI真正具备了"图文视频一起看"的能力。
2026-04-14 22:29:40
314
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。以前的RAG只能处理文本,VimRAG让AI真正具备了"图文视频一起看"的能力。
2026-04-14 22:29:40
306
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。AI能清晰区分"探索性搜索"和"结论性验证",彻底告别重复查询的无效循环。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。
2026-04-14 22:29:40
317
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。AI能清晰区分"探索性搜索"和"结论性验证",彻底告别重复查询的无效循环。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。
2026-04-14 22:29:40
369
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。以前的RAG只能处理文本,VimRAG让AI真正具备了"图文视频一起看"的能力。
2026-04-14 22:29:40
510
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。以前的RAG只能处理文本,VimRAG让AI真正具备了"图文视频一起看"的能力。
2026-04-14 22:29:40
308
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。AI能清晰区分"探索性搜索"和"结论性验证",彻底告别重复查询的无效循环。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。
2026-04-14 22:29:40
348
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。以前的RAG只能处理文本,VimRAG让AI真正具备了"图文视频一起看"的能力。
2026-04-14 22:29:40
429
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。以前的RAG只能处理文本,VimRAG让AI真正具备了"图文视频一起看"的能力。
2026-04-14 22:29:40
369
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。AI能清晰区分"探索性搜索"和"结论性验证",彻底告别重复查询的无效循环。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。
2026-04-14 22:29:40
525
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。AI能清晰区分"探索性搜索"和"结论性验证",彻底告别重复查询的无效循环。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。
2026-04-14 22:29:40
317
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。AI能清晰区分"探索性搜索"和"结论性验证",彻底告别重复查询的无效循环。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。
2026-04-14 22:29:40
276
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。以前的RAG只能处理文本,VimRAG让AI真正具备了"图文视频一起看"的能力。
2026-04-14 22:29:40
335
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。以前的RAG只能处理文本,VimRAG让AI真正具备了"图文视频一起看"的能力。
2026-04-14 22:29:40
343
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。以前的RAG只能处理文本,VimRAG让AI真正具备了"图文视频一起看"的能力。
2026-04-14 22:29:40
304
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。以前的RAG只能处理文本,VimRAG让AI真正具备了"图文视频一起看"的能力。
2026-04-14 22:29:40
374
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。以前的RAG只能处理文本,VimRAG让AI真正具备了"图文视频一起看"的能力。
2026-04-14 22:29:40
243
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。以前的RAG只能处理文本,VimRAG让AI真正具备了"图文视频一起看"的能力。
2026-04-14 22:29:40
314
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。以前的RAG只能处理文本,VimRAG让AI真正具备了"图文视频一起看"的能力。
2026-04-14 22:29:40
322
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。AI能清晰区分"探索性搜索"和"结论性验证",彻底告别重复查询的无效循环。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。
2026-04-14 22:29:40
334
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。以前的RAG只能处理文本,VimRAG让AI真正具备了"图文视频一起看"的能力。
2026-04-14 22:29:40
343
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。AI能清晰区分"探索性搜索"和"结论性验证",彻底告别重复查询的无效循环。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。
2026-04-14 22:29:40
309
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。以前的RAG只能处理文本,VimRAG让AI真正具备了"图文视频一起看"的能力。
2026-04-14 22:29:40
507
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。以前的RAG只能处理文本,VimRAG让AI真正具备了"图文视频一起看"的能力。
2026-04-14 22:29:40
337
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。AI能清晰区分"探索性搜索"和"结论性验证",彻底告别重复查询的无效循环。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。
2026-04-14 22:29:40
313
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。以前的RAG只能处理文本,VimRAG让AI真正具备了"图文视频一起看"的能力。
2026-04-14 22:29:40
566
原创 阿里通义VimRAG:让AI同时“读文档、看图片、看视频“
VimRAG用一张动态推理图,让AI学会了像人一样"多看、多想、多印证" -- 这可能是多模态RAG走向生产落地的关键一步。:视觉数据在语义上是"信息稀疏"的(一个视频片段可能就一个关键信息点),但在Token计数上是"高度密集"的。答案错了,整条路径都惩罚。传统RAG的工作方式是"线性拼接"——每次检索的结果按时间顺序排成一长串,全塞给AI。VimRAG揭示了一个深层洞察:AI的瓶颈往往不在于"不够聪明",而在于"记不住"。以前的RAG只能处理文本,VimRAG让AI真正具备了"图文视频一起看"的能力。
2026-04-14 22:29:40
277
原创 Anthropic 把“AI团队管理“变成了一键服务:Claude Managed Agents解读
Anthropic开始做云服务商做的事——提供计算资源和运行环境,只不过跑在上面的是AI Agent。每次都要处理,又慢又费钱。预计Google、OpenAI、以及国内的大模型厂商,都会推出类似的托管Agent服务。就像给一个大厨一把好刀和一口好锅, 他能做出千变万化的菜——不需要108种厨具。传统做法:AI每调用一个工具,结果都要经过"大脑"处理,然后再决定下一步。企业最担心的问题——Agent越权访问敏感数据——有了系统性的解决方案。就像公司里的审批流程: 买个文具自己批就行,签个大合同要领导签字。
2026-04-10 23:32:33
641
原创 Anthropic 把“AI团队管理“变成了一键服务:Claude Managed Agents解读
Model 是一匹千里马,Harness 是马鞍、缰绳和赛道。没有 Harness,千里马只能在草地上乱跑;有了 Harness,它才能赢比赛。这些基础设施工作可能。Anthropic开始做云服务商做的事——提供计算资源和运行环境,只不过跑在上面的是AI Agent。Anthropic在设计这套系统时,遵循了三个核心思路。AI自己决定哪些结果需要仔细看、哪些可以直接跳过。:很多中间结果根本不需要"过脑子",直接传给下一个工具就行了。在BrowseComp测试中,让AI自己过滤工具输出后,准确率从。
2026-04-10 23:32:33
562
原创 Anthropic 把“AI团队管理“变成了一键服务:Claude Managed Agents解读
Model 是一匹千里马,Harness 是马鞍、缰绳和赛道。没有 Harness,千里马只能在草地上乱跑;有了 Harness,它才能赢比赛。这些基础设施工作可能。Anthropic开始做云服务商做的事——提供计算资源和运行环境,只不过跑在上面的是AI Agent。Anthropic在设计这套系统时,遵循了三个核心思路。AI自己决定哪些结果需要仔细看、哪些可以直接跳过。:很多中间结果根本不需要"过脑子",直接传给下一个工具就行了。在BrowseComp测试中,让AI自己过滤工具输出后,准确率从。
2026-04-10 23:32:33
526
原创 Anthropic 把“AI团队管理“变成了一键服务:Claude Managed Agents解读
Model 是一匹千里马,Harness 是马鞍、缰绳和赛道。没有 Harness,千里马只能在草地上乱跑;有了 Harness,它才能赢比赛。这些基础设施工作可能。Anthropic开始做云服务商做的事——提供计算资源和运行环境,只不过跑在上面的是AI Agent。Anthropic在设计这套系统时,遵循了三个核心思路。AI自己决定哪些结果需要仔细看、哪些可以直接跳过。:很多中间结果根本不需要"过脑子",直接传给下一个工具就行了。在BrowseComp测试中,让AI自己过滤工具输出后,准确率从。
2026-04-10 23:32:33
565
原创 Anthropic 把“AI团队管理“变成了一键服务:Claude Managed Agents解读
Anthropic开始做云服务商做的事——提供计算资源和运行环境,只不过跑在上面的是AI Agent。每次都要处理,又慢又费钱。预计Google、OpenAI、以及国内的大模型厂商,都会推出类似的托管Agent服务。就像给一个大厨一把好刀和一口好锅, 他能做出千变万化的菜——不需要108种厨具。传统做法:AI每调用一个工具,结果都要经过"大脑"处理,然后再决定下一步。企业最担心的问题——Agent越权访问敏感数据——有了系统性的解决方案。就像公司里的审批流程: 买个文具自己批就行,签个大合同要领导签字。
2026-04-10 23:32:33
345
yolov5weights.zip
2020-06-15
Android FastJSON小示例
2015-09-28
Android webview代码示例
2015-10-26
Mask Wearing.v1-416x416-black-padding.yolov5pytorch_2.zip
2020-07-16
Android音乐播放器源码
2015-08-17
最新tensorflow-2.2.0源码编译的动态链接库和头文件,cuda10.1加cudnn7.6,bazel-2.0.0
2020-06-15
Android ListView简单示例
2015-09-22
最新tensorflow-2.2.0源码编译的动态链接库和头文件,cuda10.1加cudnn7.6,bazel-2.0.0
2020-05-22
PyQt5系列教程(二)利用QtDesigner设计UI界面源码包
2015-12-13
Android activity生命周期示例
2015-09-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅