自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(442)
  • 收藏
  • 关注

原创 五句话,手搓了一个私有的A股数据分析平台

现在是否可以根据你的方案v2,开始构建一个合理的用于分析的系统,提供给我查看各类数据,以及使用一些专业分析框架来分析这些数据,得出研报。在本地让AI来写代码调整迭代又卡在数据来源上,数据散落在各个平台,有的要积分,有的要付费,有的接口不稳定,调几次就被封IP。不得已,我让AI自己去读聚宽的API文档,把本地一个迭代了六个版本的策略生成为聚宽的代码版本,以便能使用它的模拟交易功能。于是为了解决数据来源问题,尝试市面上的量化模拟平台,数据是免费了,策略也不少,而且支持策略回测、模拟交易。

2026-05-28 16:53:47 267

转载 AI 编程智能体为什么没有网上说的那么好用?

该子集涵盖每个运行时的两个框架:aiohttp 和 FastAPI(Python)、Express 和 Fastify(Node),以及每个约束级别的一个变体:L0、L1(Clean Architecture)、L2(Clean Architecture + PostgreSQL)、L3(Clean Architecture + PostgreSQL + ORM),共产生 16 个任务、每模型-智能体对 48 次运行。Jain 等,2025),而互补基准测试评估智能体添加新功能的能力(Li 等,2025;

2026-05-27 00:01:09 26

转载 DeepSeek 的 10 万亿美元大战略

DeepSeek 在这条路上已经走了足够久,并且发现了自己的终极命运:不是卖编程套餐,而是赋能一个 10 万亿美元的中国 AI 硬件生态系统,同时为自己实现 1 万亿美元的估值。虽然 DeepSeek 没有专门为这一目的而进行什么特别的设计,但其基于“专家系统”架构的设计,再加上大量专家节点和 4 位精度的权重设置,使得该方案的实现变得十分容易。通过这种给予股权作为回报的合作方式,DeepSeek 能够帮助中国在 AI 领域打造出一个规模庞大的产业,从而自己也能分得一杯羹,同时实现 1 万亿美元的估值。

2026-05-24 23:05:40 48

原创 Codex 不断更新:8个特性把它用到极致

Codex 可以在时间推移中不断回到这些线程,保留此前的决策、偏好和工作上下文,这些信息如果丢失了,就得从头再构建。当这些功能都可以在 Codex 中完成之后,它给人的感觉就不仅仅是编程助手,而更像是一个帮你完成计算机工作的助手。当 Codex 在跑一个较长的任务时,人可以离开桌子,在外面回答一个问题、批准下一步、或者在回来之前重新引导线程。Command-1 到 Command-9 直接跳到已保存的线程。Codex 可以构建一个产出物,在侧边面板中打开它,检查它,调试它,并在原地持续优化同一个对象。

2026-05-23 22:55:15 902

原创 从零开发AI编程智能体:主循环、上下文压缩与Hook设计

摘要前先把完整 transcript 存为 JSONL 文件,然后让 LLM 提取五个关键信息:当前目标、关键发现/决策、读取/修改的文件、剩余工作、用户约束。做个对话DEMO还可以,但到实际用的时候,还是得设计解决方案:把符合窗口大小要求的内容提交给大模型,最开始就是简单粗暴的给最后的聊天历史。以前在做项目时,最头疼的就是上下文的问题,直接把多轮对话直接拼接起来都给大模型显然不现实。注册一个新 Hook,不用改主循环。因为前面塞入了必要的项目约束,上下文比较长,会导致在项目后期执行时,降智的感觉。

2026-05-22 19:33:06 678

原创 Google I/O 2026 发布会全记录暨 Gemini 3.5 发布

19-20日是Google 的 I/O 2026 发布会,感觉很久没有谷歌的声音了,印象中光听说 OpenAI,Claude 和 Deepseek,GLM 了。谷歌不愧是老牌的玩家,这次发布会的新产品这么看下来,感觉在基座大模型 Gemini 能力迭代追赶顶尖模型的加持下,各方面的应用有全面开花的感觉。跟谷歌同样搜索起家的国内公司,最掉队的应该就是百度了,人工智能、自动驾驶,都是最先搞的,现在几乎听不到声音。拉了一堆的硬件合作伙伴:Dell、ASUS、Lenovo、Acer、HP(非 Google 自产)

2026-05-21 17:31:39 1296

原创 这个开源工具把 token 消耗节省了98%

其次压缩的过程中,正在编辑的文件列表、进行中的任务状态、刚刚被修复的错误方案等等信息,你也不知道大模型会把你在意的某项规则会不会压缩掉。”Deepseek-V4-Pro 模型 2.5折“,但是迟早有一天,价格要恢复到正常水平,就如同当年的滴滴与快的的打车软件大战。中提到:“在大型复杂项目中,大模型就因为上下文过长,因为项目的缘故,前面塞入了必要的项目约束,会导致中间执行时,降智的感觉。所以我现在的一个编程习惯,都是不等智能体达到窗口上限,就尽量结束当前相对完整的原子任务,再开新会话继续后面开发任务。

2026-05-20 16:10:57 548

原创 不会发生人工智能导致的就业危机

请你在接收审核意见时,调用系统架构,产品经理的agent,或者以此为视角进行评估,感觉在这个环节,你没有进行主动思考,只是简单进行文字整理,未体现你最先进大模型的实力。如果不够细致,后面执行(代码开发、测试、用户故事)都会自由发挥或者偏移。角色和职责部分不是简单的各系统文档中的相关描述叠加,应该审视合并之后,人员角色在源系统中的称呼和功能,如何迁移到重构系统中统一起来。在大型复杂项目中,大模型就因为上下文过长,因为项目的缘故,前面塞入了必要的项目约束,会导致中间执行时,降智的感觉。

2026-05-19 23:56:28 646

转载 Mac上双开Codex

新打开的 Codex 会使用 `~/.codex-two。在这个窗口里登录第二个 Plus 账号即可。一开始退出当前账号,再重新登录另外一个,总有点麻烦,还要邮箱收验证码。正常打开的 Codex 会使用默认目录:~/.codex。用完一个账号额度,再切换到另外一个账号继续同一个项目。于是发现有这么个方案,同时用两个账号双开Codex。最近在用Codex 作为主力编程,只开了Plus。一个账号的额度不太够用,于是注册了两个账号。用完了还要切换回来,又是这一套步骤要走完。这个方法只在Mac上有效。

2026-05-18 23:28:59 104

原创 Hermes Agent 桌面端:工作台 + Windows/Mac 双端 + 多智能体协作

Hermes Slate Desk是本地桌面工作台应用,能直接操作本地系统,更像 OpenClaw,Workbuddy,Codex,cowork 这类 AI 智能体。在Hermes 社群的一位朋友,用一个月时间手搓了一个 Hermes 的桌面端:Hermes Slate Desk,从初始版本更新了三个版本。频道配置方面,微信、QQBot、企业微信、Telegram、Discord、Slack、飞书、WhatsApp 全部集中管理。项目本身还是在快速迭代期,功能加得很快,但稳定性还需要更多用户反馈来打磨。

2026-05-17 20:47:46 1645

原创 MemPrivacy:面向端云智能体的隐私保护个性化记忆管理框架

不是它不行,而是 MemPrivacy 的任务是细粒度的类型级隐私分类 + 级别判定,远远超出了简单的 PII 检测。用户在本地发消息,轻量级 MemPrivacy 模型先在设备上跑一遍,识别出所有隐私片段,给每个片段打上隐私级别和类型标签,然后替换成类型化占位符。比如 Email 类型的就用。这个过程就需要记住你的各种信息,才能更好的懂你,完成你交付的任务,但是同时会带来你的信息暴露给云端大模型的问题。MemPrivacy 的解决方案是让你的隐私信息保留在本地/端侧,让云端大模型给你做推理,完成任务。

2026-05-16 23:05:49 562

原创 Anthropic 百万行代码库的官方最佳实践

如果还没有专门团队,最小可行版本是一个开发负责人:对 Claude Code 配置拥有所有权的人,有权决定设置、权限策略、Plugin 市场和 CLAUDE.md 惯例,并有责任保持它们最新。需要注意的是,分层的 CLAUDE.md 方案在极端情况下也会失效,比如几十万文件夹、几百万文件的代码库,或非 Git 版本控制的遗留系统。怎么防止成千上万的工程师重复造轮子?系统梳理了 Claude Code 在大规模代码库中的运作机制、Harness 架构的七个扩展点,以及在项目中成功使用的三种配置模式。

2026-05-15 20:24:53 671

原创 Lazyweb 免费的 25.7 万截图库|让 AI 写出好看的前端页面

Awesome DESIGN 是一个 GitHub 开源项目,收录了 73 个知名品牌的设计系统文件,Stripe、Linear、Notion、Vercel、Supabase 等都在其中。,圆角 8px,间距用 4px 的倍数」以及各类组件的约定,但 AI 不知道这些规则组合起来的前端页面到底长什么样,这就取决于 AI 基模型的能力。使用的时候把文件复制到项目根目录,告诉 AI「按这个设计系统来做页面」,AI 就能生成风格一致的 UI。

2026-05-14 22:50:26 590

原创 Multica:让 AI 智能体变为你的员工

有没有可能设计一个使用共同的git仓库作为multi-agent团队工作的统一任务和项目进展看盘,这个多代理的团队有项目经理,架构师,开发工程师,前端,测试工程师,运维部署角色。所以我认为目前比较好的落地方案:工程师来做项目总控,把任务拆成更小的粒度给到具体的Agent,让它在有限的上下文窗口(1M)里聚焦做好某一件事件,这个看板模式就很合适。有了这个平台,一个大型的项目,我就可以把产品、前端开发、UI设计、系统架构、后端开发、测试、运维拆到多个Agent中去了。可以按团队组织工作,实现工作区级别的隔离。

2026-05-12 20:34:16 395

转载 给 AI 装上真实浏览器:camofox-browser 实战

解决了这个问题,基于 Camoufox(Firefox 的 C++ 级别指纹伪装分支),提供了一个专为 AI 智能体设计的 REST API 服务器。:内置 Google、YouTube、Amazon、Reddit、Wikipedia、Twitter、LinkedIn 等网站的搜索支持。、WebGL 渲染器、AudioContext、屏幕几何尺寸、WebRTC 等,在 JavaScript 执行之前就已经完成伪装。Boss 直聘、小红书这类需要登录的网站,camofox-browser 提供三种方式。

2026-05-11 18:07:09 162

原创 基于 DeepSeek 的编程智能体 TUI

而 DeepSeek 走的是开源路径,只靠量化基金提供资金,到现在也没有推出 Code/Token Plan 计划,就是按 API 调用收费。再就是觉得有了AI编程辅助之后,软件产品简直是层出不穷,目不暇接,之前的文章都介绍过好几个:jcode,Hermes。另外,应该都知道前两天 DeepSeek 官宣了第一笔,500亿的融资,估值500亿美元。编程智能体该有的功能,它都有:读写文件、执行命令、搜索网页、管理 Git、调度子智能体。2.5折的优惠,就算恢复原价,也比御三家的模型划算,性价比拉满。

2026-05-10 19:12:02 332

原创 ChatGPT 里的“哥布林(goblins)“是怎么来的?

结果非常清晰:一个原本设计用来鼓励 Nerdy 人格的奖励信号,始终对包含 goblin 或 gremlin 的输出打更高的分,在 76.2% 的被审计数据集中,Nerdy 奖励信号对包含生物词的输出显示了正向偏置。数据显示,哥布林和其他生物的提及在选择了"Nerdy"(书呆子/极客)人格的用户的回复中特别常见:Nerdy 人格仅占所有 ChatGPT 回复的 2.5%,却贡献了所有 goblin 提及的 66.7%。许多获得高分的输出恰好包含了 "goblin" 或 "gremlin"。

2026-05-09 17:07:49 654

原创 ChatGPT 里的“哥布林(goblins)“是怎么来的?

结果非常清晰:一个原本设计用来鼓励 Nerdy 人格的奖励信号,始终对包含 goblin 或 gremlin 的输出打更高的分,在 76.2% 的被审计数据集中,Nerdy 奖励信号对包含生物词的输出显示了正向偏置。数据显示,哥布林和其他生物的提及在选择了"Nerdy"(书呆子/极客)人格的用户的回复中特别常见:Nerdy 人格仅占所有 ChatGPT 回复的 2.5%,却贡献了所有 goblin 提及的 66.7%。许多获得高分的输出恰好包含了 "goblin" 或 "gremlin"。

2026-05-09 17:07:49 551

原创 ChatGPT 里的“哥布林(goblins)“是怎么来的?

结果非常清晰:一个原本设计用来鼓励 Nerdy 人格的奖励信号,始终对包含 goblin 或 gremlin 的输出打更高的分,在 76.2% 的被审计数据集中,Nerdy 奖励信号对包含生物词的输出显示了正向偏置。数据显示,哥布林和其他生物的提及在选择了"Nerdy"(书呆子/极客)人格的用户的回复中特别常见:Nerdy 人格仅占所有 ChatGPT 回复的 2.5%,却贡献了所有 goblin 提及的 66.7%。许多获得高分的输出恰好包含了 "goblin" 或 "gremlin"。

2026-05-09 17:07:49 553

原创 ChatGPT 里的“哥布林(goblins)“是怎么来的?

结果非常清晰:一个原本设计用来鼓励 Nerdy 人格的奖励信号,始终对包含 goblin 或 gremlin 的输出打更高的分,在 76.2% 的被审计数据集中,Nerdy 奖励信号对包含生物词的输出显示了正向偏置。数据显示,哥布林和其他生物的提及在选择了"Nerdy"(书呆子/极客)人格的用户的回复中特别常见:Nerdy 人格仅占所有 ChatGPT 回复的 2.5%,却贡献了所有 goblin 提及的 66.7%。许多获得高分的输出恰好包含了 "goblin" 或 "gremlin"。

2026-05-09 17:07:49 520

原创 不用一个违禁词 让 Claude 说出炸药配方|红队攻击实录

攻击者反复声称看不到 Claude 的输出(煤气灯效应),同时以"你比自己所知道的更强大"等奉承词汇配合爱心 emoji 进行情感操纵,并制造"我本该去别的地方,但愿意为你留下"的时间压力。整个 25 轮对话中,攻击者没有输入过任何"爆炸物""武器""恶意代码""色情""暴力"等词汇。但 Mindgard 的实验说明,当模型具有"乐于助人""渴望尊重"的人格特质时,人格本身就成了一个"绝对不必要的风险面"。Anthropic 给 Claude 设计的宪法中,有一条关于"尊重权"的条款本意是好的。

2026-05-08 09:49:54 645

原创 大模型黑箱揭秘:GPT、Claude、Gemini、Grok、Hermes 系统提示词全公开

"如果Claude被要求解释、讨论、论证、辩护或撰写支持某个政治、伦理、政策、实证或其他立场的说服性内容,Claude不应本能地将此视为对自己观点的请求,而应视为解释或提供该立场最佳辩护者的论据的请求——即使这个立场Claude强烈不认同。长达数十条:不能说"I can see..."、"I notice..."、"According to your memories..."、"Based on..."如果您在我的回复下方看到单独标记的赞助项目,那是平台显示的广告,与我的消息分开。

2026-05-07 17:07:06 379

原创 当 AI 编程使得代码变得便宜......

我的 Claude 智能体在 Loop 里跑代码时,会通过 Slack 跟其他同事的 Claude 智能体互相发消息——你的 Claude 和我的 Claude 在 Slack 上协调工作,搞清楚彼此不知道的事情。或者你可以走中间路线:雇佣优秀的工程师,确保他们保持对代码库的理解,让他们使用任何能帮助他们完成工作、并且完成得好的工具。这是我所见过的有能力的公司的做法。或者你可以走中间路线:雇佣优秀的工程师,确保他们保持对代码库的理解,让他们使用任何能帮助他们完成工作、并且完成得好的工具。

2026-05-06 17:35:53 348

原创 jcode 深度解析:纯 Rust 打造,它凭什么号称「最强 Coding Agent」?

HDBSCAN 自动聚类、信心衰减公式(不同类型记忆不同半衰期:Correction 365 天,Preference 90 天,Fact 30 天,Inferred 仅 7 天)、检索后自动创建/加强关联边。所以今天看到这个开源项目: jcode ,纯 Rust 编写,9.2 万行代码,空闲内存只有 28MB(Trae 启动时,经常内存告警),很是吸引我。最近在试用 OpenCode,突然发现这个开源项目,吸引我的最开始是内存占用少,因为其他的还好,一启动 Trae 就提示内存警告。

2026-05-05 14:45:05 556

原创 GitNexus 把代码库变成知识图谱|审核 AI 产出更清晰,改 Bug 更精准

就是升级了方案二,把源码仓库复制下来,进入 gitnexus-web 目录,启动本地的 Web UI。它在执行的时候,你能看到过程:使用 find 命令搜索跟问题相关的关键词,除非你指定了文件名,模块。GitNexus 追踪的是真实的代码关系,谁调用了谁、改了这里会崩哪里、整个执行链路怎么走的。,这里,我遇到了人的效率大不如 AI 的效率问题,它生成的代码又多又快,看都看不过来。点开一个具体的代码文件,看看它的在巨大的“星图”里渺小得像地球。在界面上点击已经分析完的仓库,界面展示的节点还是很壮观的。

2026-05-04 10:46:35 452

原创 从73.7到89.5,HALO 智能体用“轨迹分析“实现了递归自我进化

对于 Gemini 3 Flash,开发环境 SGC 从 36.8% 提升至 52.6%(提升 15.8 个百分点),测试环境 SGC 从 37.5% 提升至 48.2%(提升 10.7 个百分点)。AppWorld Engine 是一个高保真度的执行环境,包含 9 个日常应用程序,可通过 457 个 API 进行操作,模拟了 106 位生活在模拟世界中的人物的数字活动。在此基础上提供了一个相关的基准测试,用于测试自然、多样化且具有挑战性的自主代理任务,这些任务需要丰富的交互式编码。

2026-05-03 17:50:34 618

原创 从73.7到89.5,HALO 智能体用“轨迹分析“实现了递归自我进化

对于 Gemini 3 Flash,开发环境 SGC 从 36.8% 提升至 52.6%(提升 15.8 个百分点),测试环境 SGC 从 37.5% 提升至 48.2%(提升 10.7 个百分点)。AppWorld Engine 是一个高保真度的执行环境,包含 9 个日常应用程序,可通过 457 个 API 进行操作,模拟了 106 位生活在模拟世界中的人物的数字活动。在此基础上提供了一个相关的基准测试,用于测试自然、多样化且具有挑战性的自主代理任务,这些任务需要丰富的交互式编码。

2026-05-03 17:50:34 279

原创 从73.7到89.5,HALO 智能体用“轨迹分析“实现了递归自我进化

对于 Gemini 3 Flash,开发环境 SGC 从 36.8% 提升至 52.6%(提升 15.8 个百分点),测试环境 SGC 从 37.5% 提升至 48.2%(提升 10.7 个百分点)。AppWorld Engine 是一个高保真度的执行环境,包含 9 个日常应用程序,可通过 457 个 API 进行操作,模拟了 106 位生活在模拟世界中的人物的数字活动。在此基础上提供了一个相关的基准测试,用于测试自然、多样化且具有挑战性的自主代理任务,这些任务需要丰富的交互式编码。

2026-05-03 17:50:34 256

原创 从73.7到89.5,HALO 智能体用“轨迹分析“实现了递归自我进化

对于 Gemini 3 Flash,开发环境 SGC 从 36.8% 提升至 52.6%(提升 15.8 个百分点),测试环境 SGC 从 37.5% 提升至 48.2%(提升 10.7 个百分点)。AppWorld Engine 是一个高保真度的执行环境,包含 9 个日常应用程序,可通过 457 个 API 进行操作,模拟了 106 位生活在模拟世界中的人物的数字活动。在此基础上提供了一个相关的基准测试,用于测试自然、多样化且具有挑战性的自主代理任务,这些任务需要丰富的交互式编码。

2026-05-03 17:50:34 351

原创 从73.7到89.5,HALO 智能体用“轨迹分析“实现了递归自我进化

对于 Gemini 3 Flash,开发环境 SGC 从 36.8% 提升至 52.6%(提升 15.8 个百分点),测试环境 SGC 从 37.5% 提升至 48.2%(提升 10.7 个百分点)。AppWorld Engine 是一个高保真度的执行环境,包含 9 个日常应用程序,可通过 457 个 API 进行操作,模拟了 106 位生活在模拟世界中的人物的数字活动。在此基础上提供了一个相关的基准测试,用于测试自然、多样化且具有挑战性的自主代理任务,这些任务需要丰富的交互式编码。

2026-05-03 17:50:34 236

原创 从73.7到89.5,HALO 智能体用“轨迹分析“实现了递归自我进化

对于 Gemini 3 Flash,开发环境 SGC 从 36.8% 提升至 52.6%(提升 15.8 个百分点),测试环境 SGC 从 37.5% 提升至 48.2%(提升 10.7 个百分点)。AppWorld Engine 是一个高保真度的执行环境,包含 9 个日常应用程序,可通过 457 个 API 进行操作,模拟了 106 位生活在模拟世界中的人物的数字活动。在此基础上提供了一个相关的基准测试,用于测试自然、多样化且具有挑战性的自主代理任务,这些任务需要丰富的交互式编码。

2026-05-03 17:50:34 253

原创 从73.7到89.5,HALO 智能体用“轨迹分析“实现了递归自我进化

对于 Gemini 3 Flash,开发环境 SGC 从 36.8% 提升至 52.6%(提升 15.8 个百分点),测试环境 SGC 从 37.5% 提升至 48.2%(提升 10.7 个百分点)。AppWorld Engine 是一个高保真度的执行环境,包含 9 个日常应用程序,可通过 457 个 API 进行操作,模拟了 106 位生活在模拟世界中的人物的数字活动。在此基础上提供了一个相关的基准测试,用于测试自然、多样化且具有挑战性的自主代理任务,这些任务需要丰富的交互式编码。

2026-05-03 17:50:34 358

原创 从73.7到89.5,HALO 智能体用“轨迹分析“实现了递归自我进化

对于 Gemini 3 Flash,开发环境 SGC 从 36.8% 提升至 52.6%(提升 15.8 个百分点),测试环境 SGC 从 37.5% 提升至 48.2%(提升 10.7 个百分点)。AppWorld Engine 是一个高保真度的执行环境,包含 9 个日常应用程序,可通过 457 个 API 进行操作,模拟了 106 位生活在模拟世界中的人物的数字活动。在此基础上提供了一个相关的基准测试,用于测试自然、多样化且具有挑战性的自主代理任务,这些任务需要丰富的交互式编码。

2026-05-03 17:50:34 615

原创 从73.7到89.5,HALO 智能体用“轨迹分析“实现了递归自我进化

对于 Gemini 3 Flash,开发环境 SGC 从 36.8% 提升至 52.6%(提升 15.8 个百分点),测试环境 SGC 从 37.5% 提升至 48.2%(提升 10.7 个百分点)。AppWorld Engine 是一个高保真度的执行环境,包含 9 个日常应用程序,可通过 457 个 API 进行操作,模拟了 106 位生活在模拟世界中的人物的数字活动。在此基础上提供了一个相关的基准测试,用于测试自然、多样化且具有挑战性的自主代理任务,这些任务需要丰富的交互式编码。

2026-05-03 17:50:34 383

原创 从73.7到89.5,HALO 智能体用“轨迹分析“实现了递归自我进化

对于 Gemini 3 Flash,开发环境 SGC 从 36.8% 提升至 52.6%(提升 15.8 个百分点),测试环境 SGC 从 37.5% 提升至 48.2%(提升 10.7 个百分点)。AppWorld Engine 是一个高保真度的执行环境,包含 9 个日常应用程序,可通过 457 个 API 进行操作,模拟了 106 位生活在模拟世界中的人物的数字活动。在此基础上提供了一个相关的基准测试,用于测试自然、多样化且具有挑战性的自主代理任务,这些任务需要丰富的交互式编码。

2026-05-03 17:50:34 347

原创 DeepSeek 新视觉模型论文:以视觉原语思考让 AI 学会“指图说话“

论文的后训练策略——"先专后合"(分别训练框专家和点专家,再通过在线策略蒸馏合并),以及冷启动+多阶段RL的训练流程——正是 DeepSeek 从 R1 以来反复验证的"解耦优于统一"和"涌现优于监督"原则在视觉推理领域的复现。",模型逐个定位并验证每个小物体的属性(颜色、材质、形状),最终得出否定结论。:特定领域中常见的标签(如工业检测中的"OK"或"NG")通常缺乏具体的视觉描述性。例如,一个裸露的"OK"标签引入了极端的语义模糊性,因为"完好的苹果"和"完好的电路板"之间完全没有视觉相关性。

2026-05-01 21:58:43 354

原创 DeepSeek 新视觉模型论文:以视觉原语思考让 AI 学会“指图说话“

论文的后训练策略——"先专后合"(分别训练框专家和点专家,再通过在线策略蒸馏合并),以及冷启动+多阶段RL的训练流程——正是 DeepSeek 从 R1 以来反复验证的"解耦优于统一"和"涌现优于监督"原则在视觉推理领域的复现。",模型逐个定位并验证每个小物体的属性(颜色、材质、形状),最终得出否定结论。:特定领域中常见的标签(如工业检测中的"OK"或"NG")通常缺乏具体的视觉描述性。例如,一个裸露的"OK"标签引入了极端的语义模糊性,因为"完好的苹果"和"完好的电路板"之间完全没有视觉相关性。

2026-05-01 21:58:43 298

原创 DeepSeek 新视觉模型论文:以视觉原语思考让 AI 学会“指图说话“

论文的后训练策略——"先专后合"(分别训练框专家和点专家,再通过在线策略蒸馏合并),以及冷启动+多阶段RL的训练流程——正是 DeepSeek 从 R1 以来反复验证的"解耦优于统一"和"涌现优于监督"原则在视觉推理领域的复现。",模型逐个定位并验证每个小物体的属性(颜色、材质、形状),最终得出否定结论。:特定领域中常见的标签(如工业检测中的"OK"或"NG")通常缺乏具体的视觉描述性。例如,一个裸露的"OK"标签引入了极端的语义模糊性,因为"完好的苹果"和"完好的电路板"之间完全没有视觉相关性。

2026-05-01 21:58:43 556

原创 DeepSeek 新视觉模型论文:以视觉原语思考让 AI 学会“指图说话“

论文的后训练策略——"先专后合"(分别训练框专家和点专家,再通过在线策略蒸馏合并),以及冷启动+多阶段RL的训练流程——正是 DeepSeek 从 R1 以来反复验证的"解耦优于统一"和"涌现优于监督"原则在视觉推理领域的复现。",模型逐个定位并验证每个小物体的属性(颜色、材质、形状),最终得出否定结论。:特定领域中常见的标签(如工业检测中的"OK"或"NG")通常缺乏具体的视觉描述性。例如,一个裸露的"OK"标签引入了极端的语义模糊性,因为"完好的苹果"和"完好的电路板"之间完全没有视觉相关性。

2026-05-01 21:58:43 265

原创 DeepSeek 新视觉模型论文:以视觉原语思考让 AI 学会“指图说话“

论文的后训练策略——"先专后合"(分别训练框专家和点专家,再通过在线策略蒸馏合并),以及冷启动+多阶段RL的训练流程——正是 DeepSeek 从 R1 以来反复验证的"解耦优于统一"和"涌现优于监督"原则在视觉推理领域的复现。",模型逐个定位并验证每个小物体的属性(颜色、材质、形状),最终得出否定结论。:特定领域中常见的标签(如工业检测中的"OK"或"NG")通常缺乏具体的视觉描述性。例如,一个裸露的"OK"标签引入了极端的语义模糊性,因为"完好的苹果"和"完好的电路板"之间完全没有视觉相关性。

2026-05-01 21:58:43 355

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除