- 博客(16)
- 收藏
- 关注
原创 AI 的关键点不是prompt,而是Context Engineering?
因为它涉及的是整个信息架构的设计,包括怎么组织信息、如何筛选相关内容、压缩冗余数据、以及隔离不同任务的上下文等等。项目的整体架构、业务逻辑、已有的代码库、依赖关系、历史bug修复记录,还有当前要解决的具体问题。,我发现即使用同样的prompt,不同的上下文环境下效果完全不一样。当我只是简单描述要把单体应用拆分成微服务的时候,它给出的方案都是教科书式的套话,但当我把现有的。比如长上下文的token消耗问题、信息冲突的处理、上下文污染的防范等等。毕竟,再聪明的AI也需要足够的信息才能做出正确的决策。
2025-08-27 16:23:34
528
原创 从工具调用到代码生成:为什么说Python-use是Agent开发的未来
Python-use这个思路回归了编程的本质:code is everything
2025-08-14 14:16:38
658
原创 从测评看 GPT-5:进步显著,但仍不及预期
OpenAI 联合创始人、首席执行官萨姆・奥尔特曼将 GPT-5 类比为可以按需召唤的 “博士级专家”,能够随时助力用户达成各种复杂目标,并且声称 GPT-5 在超高难度的科学问题上刷新了世界纪录,在与人类专家的对比测试中,近 70% 的场景表现更优。在 AiPy 第三期测评的 13 个参评大模型中,仅有 GLM-4.5、Doubao-Seed-1.6、Claude Sonnet 4 在交互操作类任务中表现优异,GPT-5 在此方面的不足,极大拉低了其整体竞争力。总之,GPT-5 总算亮相了。
2025-08-12 17:07:21
930
原创 堆 Prompt 搞不出真 Agent!代码才是智能体的灵魂
如果你还在靠堆 Prompt 做 Agent,就像在用积木搭火箭,看似复杂,实则一碰就散。
2025-08-06 18:04:45
6957
原创 一个开源AI牛马神器 | AiPy,平替Manus,装完直接上手写Python!
相比“远走他乡”的Manus,AiPy更像是那个留在你身边、还能本地部署的国产亲儿子。
2025-07-29 18:53:13
1720
原创 AI Agent 落地实测崩盘:成功率仅 30%,我们是不是高估了它?
在无数demo惊艳、发布会狂欢之后,现实业务场景给了用户们当头一棒:表现不稳定、执行力低下、成本控制差,说谎、误删也是家常便饭。实验室 Agent 生活在完美环境中,有清晰的API、有完备的数据、有理想的反馈。但现实世界充满模糊、延迟、冲突,Agent 脱离控制几乎是必然的。AI Agent 的未来,不在于“一个大模型包打天下”,而是有明确任务边界、有结构化输入输出、有失败补救机制以及有清晰人机交界面。真正好用的 Agent,不是让你什么都不做,而是帮你把重复做、做得慢、做得累的部分做得更快更稳。
2025-07-28 19:03:18
914
原创 突破传统agent天花板:这个AI直接为你写脚本、调接口、建工具链
这是一个能“自造工具”、解决真实场景问题的 AI Agent,不再是玩具,而是生产力。
2025-07-24 18:14:01
406
原创 如何看待王垠对 Cursor 等 AI 编程的评价「不懂计算机科学的人用好 AI 编程是妄想」?
AI编程的意义恰恰就在,让一个完全不懂代码的人可以向他的朋友炫耀workflow的成果,然后感叹,你真是太牛了,庸俗来说,科技在普通人身上的魅力不就在于此吗?
2025-07-22 15:43:32
631
原创 不会写爬虫?用AI自动抓数据+分析,做出显示器推荐榜单
最近致力于挖掘更多workflow工具的玩法,今天分享下如何在不用python的情况下,直接用指令控制AI工具。我们以“挑选性价比最高的显示器”为主题让AiPy控制本地设备在各电商平台爬数据然后分析给出结果。,因为开源、免费、且本地化部署,能够保护数据安全,Claude系列也可以,除了贵没缺点。②在对话界面输入指令(可由生成式AI整理,如GPT、Deepseek)现在用AI爬数据还蛮方便,比较难的就是在指令上的优化,大家可以多试试。①找到一个可workflow的AI工具,我用的是。
2025-07-21 17:34:48
734
原创 Claude系列和Doubao Seed 1.6,为什么是“最能干活”的大模型?
不难发现,在评估维度评测的五大任务场景中,有一个场景的评分显现出较大的两级分化,那就是交互操作能力,透过热力图与雷达图可以清楚看到,该能力甚至直接影响了最后的评分排比,交互操作类任务仅Claude系列和Doubao Seed 1.6经受住了挑战,而这三个模型分别位列综合评分前三。结合Auto-GPT 与 Agent 架构中对“操作环境”的描述以及AiPy、Autogen等框架中的衡量指标来看,交互操作能力指的是:AI 在理解用户意图后,能否代替用户完整并实际地执行一系列操作。仅有强模型是不够的。
2025-07-18 18:58:21
2921
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1