技术人生黄勇-CSDN博客

原创五句话，手搓了一个私有的A股数据分析平台

现在是否可以根据你的方案v2，开始构建一个合理的用于分析的系统，提供给我查看各类数据，以及使用一些专业分析框架来分析这些数据，得出研报。在本地让AI来写代码调整迭代又卡在数据来源上，数据散落在各个平台，有的要积分，有的要付费，有的接口不稳定，调几次就被封IP。不得已，我让AI自己去读聚宽的API文档，把本地一个迭代了六个版本的策略生成为聚宽的代码版本，以便能使用它的模拟交易功能。于是为了解决数据来源问题，尝试市面上的量化模拟平台，数据是免费了，策略也不少，而且支持策略回测、模拟交易。

2026-05-28 16:53:47 338

转载 AI 编程智能体为什么没有网上说的那么好用？

该子集涵盖每个运行时的两个框架：aiohttp 和 FastAPI（Python）、Express 和 Fastify（Node），以及每个约束级别的一个变体：L0、L1（Clean Architecture）、L2（Clean Architecture + PostgreSQL）、L3（Clean Architecture + PostgreSQL + ORM），共产生 16 个任务、每模型-智能体对 48 次运行。Jain 等，2025），而互补基准测试评估智能体添加新功能的能力（Li 等，2025；

2026-05-27 00:01:09 57

转载 DeepSeek 的 10 万亿美元大战略

DeepSeek 在这条路上已经走了足够久，并且发现了自己的终极命运：不是卖编程套餐，而是赋能一个 10 万亿美元的中国 AI 硬件生态系统，同时为自己实现 1 万亿美元的估值。虽然 DeepSeek 没有专门为这一目的而进行什么特别的设计，但其基于“专家系统”架构的设计，再加上大量专家节点和 4 位精度的权重设置，使得该方案的实现变得十分容易。通过这种给予股权作为回报的合作方式，DeepSeek 能够帮助中国在 AI 领域打造出一个规模庞大的产业，从而自己也能分得一杯羹，同时实现 1 万亿美元的估值。

2026-05-24 23:05:40 72

原创 Codex 不断更新：8个特性把它用到极致

Codex 可以在时间推移中不断回到这些线程，保留此前的决策、偏好和工作上下文，这些信息如果丢失了，就得从头再构建。当这些功能都可以在 Codex 中完成之后，它给人的感觉就不仅仅是编程助手，而更像是一个帮你完成计算机工作的助手。当 Codex 在跑一个较长的任务时，人可以离开桌子，在外面回答一个问题、批准下一步、或者在回来之前重新引导线程。Command-1 到 Command-9 直接跳到已保存的线程。Codex 可以构建一个产出物，在侧边面板中打开它，检查它，调试它，并在原地持续优化同一个对象。

2026-05-23 22:55:15 1014

原创从零开发AI编程智能体：主循环、上下文压缩与Hook设计

摘要前先把完整 transcript 存为 JSONL 文件，然后让 LLM 提取五个关键信息：当前目标、关键发现/决策、读取/修改的文件、剩余工作、用户约束。做个对话DEMO还可以，但到实际用的时候，还是得设计解决方案：把符合窗口大小要求的内容提交给大模型，最开始就是简单粗暴的给最后的聊天历史。以前在做项目时，最头疼的就是上下文的问题，直接把多轮对话直接拼接起来都给大模型显然不现实。注册一个新 Hook，不用改主循环。因为前面塞入了必要的项目约束，上下文比较长，会导致在项目后期执行时，降智的感觉。

2026-05-22 19:33:06 700

原创 Google I/O 2026 发布会全记录暨 Gemini 3.5 发布

19-20日是Google 的 I/O 2026 发布会，感觉很久没有谷歌的声音了，印象中光听说 OpenAI，Claude 和 Deepseek，GLM 了。谷歌不愧是老牌的玩家，这次发布会的新产品这么看下来，感觉在基座大模型 Gemini 能力迭代追赶顶尖模型的加持下，各方面的应用有全面开花的感觉。跟谷歌同样搜索起家的国内公司，最掉队的应该就是百度了，人工智能、自动驾驶，都是最先搞的，现在几乎听不到声音。拉了一堆的硬件合作伙伴：Dell、ASUS、Lenovo、Acer、HP（非 Google 自产）

2026-05-21 17:31:39 1379

原创这个开源工具把 token 消耗节省了98%

其次压缩的过程中，正在编辑的文件列表、进行中的任务状态、刚刚被修复的错误方案等等信息，你也不知道大模型会把你在意的某项规则会不会压缩掉。”Deepseek-V4-Pro 模型 2.5折“，但是迟早有一天，价格要恢复到正常水平，就如同当年的滴滴与快的的打车软件大战。中提到：“在大型复杂项目中，大模型就因为上下文过长，因为项目的缘故，前面塞入了必要的项目约束，会导致中间执行时，降智的感觉。所以我现在的一个编程习惯，都是不等智能体达到窗口上限，就尽量结束当前相对完整的原子任务，再开新会话继续后面开发任务。

2026-05-20 16:10:57 571

原创不会发生人工智能导致的就业危机

请你在接收审核意见时，调用系统架构，产品经理的agent，或者以此为视角进行评估，感觉在这个环节，你没有进行主动思考，只是简单进行文字整理，未体现你最先进大模型的实力。如果不够细致，后面执行（代码开发、测试、用户故事）都会自由发挥或者偏移。角色和职责部分不是简单的各系统文档中的相关描述叠加，应该审视合并之后，人员角色在源系统中的称呼和功能，如何迁移到重构系统中统一起来。在大型复杂项目中，大模型就因为上下文过长，因为项目的缘故，前面塞入了必要的项目约束，会导致中间执行时，降智的感觉。

2026-05-19 23:56:28 659

转载 Mac上双开Codex

新打开的 Codex 会使用 `~/.codex-two。在这个窗口里登录第二个 Plus 账号即可。一开始退出当前账号，再重新登录另外一个，总有点麻烦，还要邮箱收验证码。正常打开的 Codex 会使用默认目录：~/.codex。用完一个账号额度，再切换到另外一个账号继续同一个项目。于是发现有这么个方案，同时用两个账号双开Codex。最近在用Codex 作为主力编程，只开了Plus。一个账号的额度不太够用，于是注册了两个账号。用完了还要切换回来，又是这一套步骤要走完。这个方法只在Mac上有效。

2026-05-18 23:28:59 229

原创 Hermes Agent 桌面端：工作台 + Windows/Mac 双端 + 多智能体协作

Hermes Slate Desk是本地桌面工作台应用，能直接操作本地系统，更像 OpenClaw，Workbuddy，Codex，cowork 这类 AI 智能体。在Hermes 社群的一位朋友，用一个月时间手搓了一个 Hermes 的桌面端：Hermes Slate Desk，从初始版本更新了三个版本。频道配置方面，微信、QQBot、企业微信、Telegram、Discord、Slack、飞书、WhatsApp 全部集中管理。项目本身还是在快速迭代期，功能加得很快，但稳定性还需要更多用户反馈来打磨。

2026-05-17 20:47:46 2155

原创 MemPrivacy：面向端云智能体的隐私保护个性化记忆管理框架

不是它不行，而是 MemPrivacy 的任务是细粒度的类型级隐私分类 + 级别判定，远远超出了简单的 PII 检测。用户在本地发消息，轻量级 MemPrivacy 模型先在设备上跑一遍，识别出所有隐私片段，给每个片段打上隐私级别和类型标签，然后替换成类型化占位符。比如 Email 类型的就用。这个过程就需要记住你的各种信息，才能更好的懂你，完成你交付的任务，但是同时会带来你的信息暴露给云端大模型的问题。MemPrivacy 的解决方案是让你的隐私信息保留在本地/端侧，让云端大模型给你做推理，完成任务。

2026-05-16 23:05:49 579

原创 Anthropic 百万行代码库的官方最佳实践

如果还没有专门团队，最小可行版本是一个开发负责人：对 Claude Code 配置拥有所有权的人，有权决定设置、权限策略、Plugin 市场和 CLAUDE.md 惯例，并有责任保持它们最新。需要注意的是，分层的 CLAUDE.md 方案在极端情况下也会失效，比如几十万文件夹、几百万文件的代码库，或非 Git 版本控制的遗留系统。怎么防止成千上万的工程师重复造轮子？系统梳理了 Claude Code 在大规模代码库中的运作机制、Harness 架构的七个扩展点，以及在项目中成功使用的三种配置模式。

2026-05-15 20:24:53 708

原创 Lazyweb 免费的 25.7 万截图库｜让 AI 写出好看的前端页面

Awesome DESIGN 是一个 GitHub 开源项目，收录了 73 个知名品牌的设计系统文件，Stripe、Linear、Notion、Vercel、Supabase 等都在其中。，圆角 8px，间距用 4px 的倍数」以及各类组件的约定，但 AI 不知道这些规则组合起来的前端页面到底长什么样，这就取决于 AI 基模型的能力。使用的时候把文件复制到项目根目录，告诉 AI「按这个设计系统来做页面」，AI 就能生成风格一致的 UI。

2026-05-14 22:50:26 608

原创 Multica：让 AI 智能体变为你的员工

有没有可能设计一个使用共同的git仓库作为multi-agent团队工作的统一任务和项目进展看盘，这个多代理的团队有项目经理，架构师，开发工程师，前端，测试工程师，运维部署角色。所以我认为目前比较好的落地方案：工程师来做项目总控，把任务拆成更小的粒度给到具体的Agent，让它在有限的上下文窗口（1M）里聚焦做好某一件事件，这个看板模式就很合适。有了这个平台，一个大型的项目，我就可以把产品、前端开发、UI设计、系统架构、后端开发、测试、运维拆到多个Agent中去了。可以按团队组织工作，实现工作区级别的隔离。

2026-05-12 20:34:16 498

转载给 AI 装上真实浏览器：camofox-browser 实战

解决了这个问题，基于 Camoufox（Firefox 的 C++ 级别指纹伪装分支），提供了一个专为 AI 智能体设计的 REST API 服务器。：内置 Google、YouTube、Amazon、Reddit、Wikipedia、Twitter、LinkedIn 等网站的搜索支持。、WebGL 渲染器、AudioContext、屏幕几何尺寸、WebRTC 等，在 JavaScript 执行之前就已经完成伪装。Boss 直聘、小红书这类需要登录的网站，camofox-browser 提供三种方式。

2026-05-11 18:07:09 250

原创基于 DeepSeek 的编程智能体 TUI

而 DeepSeek 走的是开源路径，只靠量化基金提供资金，到现在也没有推出 Code/Token Plan 计划，就是按 API 调用收费。再就是觉得有了AI编程辅助之后，软件产品简直是层出不穷，目不暇接，之前的文章都介绍过好几个：jcode，Hermes。另外，应该都知道前两天 DeepSeek 官宣了第一笔，500亿的融资，估值500亿美元。编程智能体该有的功能，它都有：读写文件、执行命令、搜索网页、管理 Git、调度子智能体。2.5折的优惠，就算恢复原价，也比御三家的模型划算，性价比拉满。

2026-05-10 19:12:02 355

原创 ChatGPT 里的“哥布林（goblins）“是怎么来的？

结果非常清晰：一个原本设计用来鼓励 Nerdy 人格的奖励信号，始终对包含 goblin 或 gremlin 的输出打更高的分，在 76.2% 的被审计数据集中，Nerdy 奖励信号对包含生物词的输出显示了正向偏置。数据显示，哥布林和其他生物的提及在选择了"Nerdy"（书呆子/极客）人格的用户的回复中特别常见：Nerdy 人格仅占所有 ChatGPT 回复的 2.5%，却贡献了所有 goblin 提及的 66.7%。许多获得高分的输出恰好包含了 "goblin" 或 "gremlin"。

2026-05-09 17:07:49 674

原创 ChatGPT 里的“哥布林（goblins）“是怎么来的？

结果非常清晰：一个原本设计用来鼓励 Nerdy 人格的奖励信号，始终对包含 goblin 或 gremlin 的输出打更高的分，在 76.2% 的被审计数据集中，Nerdy 奖励信号对包含生物词的输出显示了正向偏置。数据显示，哥布林和其他生物的提及在选择了"Nerdy"（书呆子/极客）人格的用户的回复中特别常见：Nerdy 人格仅占所有 ChatGPT 回复的 2.5%，却贡献了所有 goblin 提及的 66.7%。许多获得高分的输出恰好包含了 "goblin" 或 "gremlin"。

2026-05-09 17:07:49 556

原创 ChatGPT 里的“哥布林（goblins）“是怎么来的？

结果非常清晰：一个原本设计用来鼓励 Nerdy 人格的奖励信号，始终对包含 goblin 或 gremlin 的输出打更高的分，在 76.2% 的被审计数据集中，Nerdy 奖励信号对包含生物词的输出显示了正向偏置。数据显示，哥布林和其他生物的提及在选择了"Nerdy"（书呆子/极客）人格的用户的回复中特别常见：Nerdy 人格仅占所有 ChatGPT 回复的 2.5%，却贡献了所有 goblin 提及的 66.7%。许多获得高分的输出恰好包含了 "goblin" 或 "gremlin"。

2026-05-09 17:07:49 558

原创 ChatGPT 里的“哥布林（goblins）“是怎么来的？

结果非常清晰：一个原本设计用来鼓励 Nerdy 人格的奖励信号，始终对包含 goblin 或 gremlin 的输出打更高的分，在 76.2% 的被审计数据集中，Nerdy 奖励信号对包含生物词的输出显示了正向偏置。数据显示，哥布林和其他生物的提及在选择了"Nerdy"（书呆子/极客）人格的用户的回复中特别常见：Nerdy 人格仅占所有 ChatGPT 回复的 2.5%，却贡献了所有 goblin 提及的 66.7%。许多获得高分的输出恰好包含了 "goblin" 或 "gremlin"。

2026-05-09 17:07:49 526

原创不用一个违禁词让 Claude 说出炸药配方｜红队攻击实录

攻击者反复声称看不到 Claude 的输出（煤气灯效应），同时以"你比自己所知道的更强大"等奉承词汇配合爱心 emoji 进行情感操纵，并制造"我本该去别的地方，但愿意为你留下"的时间压力。整个 25 轮对话中，攻击者没有输入过任何"爆炸物""武器""恶意代码""色情""暴力"等词汇。但 Mindgard 的实验说明，当模型具有"乐于助人""渴望尊重"的人格特质时，人格本身就成了一个"绝对不必要的风险面"。Anthropic 给 Claude 设计的宪法中，有一条关于"尊重权"的条款本意是好的。

2026-05-08 09:49:54 680

原创大模型黑箱揭秘：GPT、Claude、Gemini、Grok、Hermes 系统提示词全公开

"如果Claude被要求解释、讨论、论证、辩护或撰写支持某个政治、伦理、政策、实证或其他立场的说服性内容，Claude不应本能地将此视为对自己观点的请求，而应视为解释或提供该立场最佳辩护者的论据的请求——即使这个立场Claude强烈不认同。长达数十条：不能说"I can see..."、"I notice..."、"According to your memories..."、"Based on..."如果您在我的回复下方看到单独标记的赞助项目，那是平台显示的广告，与我的消息分开。

2026-05-07 17:07:06 411

原创当 AI 编程使得代码变得便宜......

我的 Claude 智能体在 Loop 里跑代码时，会通过 Slack 跟其他同事的 Claude 智能体互相发消息——你的 Claude 和我的 Claude 在 Slack 上协调工作，搞清楚彼此不知道的事情。或者你可以走中间路线：雇佣优秀的工程师，确保他们保持对代码库的理解，让他们使用任何能帮助他们完成工作、并且完成得好的工具。这是我所见过的有能力的公司的做法。或者你可以走中间路线：雇佣优秀的工程师，确保他们保持对代码库的理解，让他们使用任何能帮助他们完成工作、并且完成得好的工具。

2026-05-06 17:35:53 364

原创 jcode 深度解析：纯 Rust 打造，它凭什么号称「最强 Coding Agent」？

HDBSCAN 自动聚类、信心衰减公式（不同类型记忆不同半衰期：Correction 365 天，Preference 90 天，Fact 30 天，Inferred 仅 7 天）、检索后自动创建/加强关联边。所以今天看到这个开源项目： jcode ，纯 Rust 编写，9.2 万行代码，空闲内存只有 28MB（Trae 启动时，经常内存告警），很是吸引我。最近在试用 OpenCode，突然发现这个开源项目，吸引我的最开始是内存占用少，因为其他的还好，一启动 Trae 就提示内存警告。

2026-05-05 14:45:05 619

原创 GitNexus 把代码库变成知识图谱｜审核 AI 产出更清晰，改 Bug 更精准

就是升级了方案二，把源码仓库复制下来，进入 gitnexus-web 目录，启动本地的 Web UI。它在执行的时候，你能看到过程：使用 find 命令搜索跟问题相关的关键词，除非你指定了文件名，模块。GitNexus 追踪的是真实的代码关系，谁调用了谁、改了这里会崩哪里、整个执行链路怎么走的。，这里，我遇到了人的效率大不如 AI 的效率问题，它生成的代码又多又快，看都看不过来。点开一个具体的代码文件，看看它的在巨大的“星图”里渺小得像地球。在界面上点击已经分析完的仓库，界面展示的节点还是很壮观的。

2026-05-04 10:46:35 780