自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 当前大模型Agent能力面临的最大挑战是泛化性不足?

这就涉及到一个根本性问题:人类智能的本质到底是什么?

2025-09-05 16:21:02 419

原创 2025AI真正分水岭:传统Agent已落幕,代码生成式Agent才是未来!

这不是在用工具,这是在造工具!

2025-09-01 17:58:50 428

原创 AI 的关键点不是prompt,而是Context Engineering?

因为它涉及的是整个信息架构的设计,包括怎么组织信息、如何筛选相关内容、压缩冗余数据、以及隔离不同任务的上下文等等。项目的整体架构、业务逻辑、已有的代码库、依赖关系、历史bug修复记录,还有当前要解决的具体问题。,我发现即使用同样的prompt,不同的上下文环境下效果完全不一样。当我只是简单描述要把单体应用拆分成微服务的时候,它给出的方案都是教科书式的套话,但当我把现有的。比如长上下文的token消耗问题、信息冲突的处理、上下文污染的防范等等。毕竟,再聪明的AI也需要足够的信息才能做出正确的决策。

2025-08-27 16:23:34 528

原创 踩坑半年总结:为什么传统AI编程工具都会变屎山?

简单说就是不要那些复杂的框架,直接用Python代码来实现Agent逻辑。

2025-08-20 17:20:13 732

原创 从工具调用到代码生成:为什么说Python-use是Agent开发的未来

Python-use这个思路回归了编程的本质:code is everything

2025-08-14 14:16:38 658

原创 从测评看 GPT-5:进步显著,但仍不及预期

OpenAI 联合创始人、首席执行官萨姆・奥尔特曼将 GPT-5 类比为可以按需召唤的 “博士级专家”,能够随时助力用户达成各种复杂目标,并且声称 GPT-5 在超高难度的科学问题上刷新了世界纪录,在与人类专家的对比测试中,近 70% 的场景表现更优。在 AiPy 第三期测评的 13 个参评大模型中,仅有 GLM-4.5、Doubao-Seed-1.6、Claude Sonnet 4 在交互操作类任务中表现优异,GPT-5 在此方面的不足,极大拉低了其整体竞争力。总之,GPT-5 总算亮相了。

2025-08-12 17:07:21 930

原创 堆 Prompt 搞不出真 Agent!代码才是智能体的灵魂

如果你还在靠堆 Prompt 做 Agent,就像在用积木搭火箭,看似复杂,实则一碰就散。

2025-08-06 18:04:45 6957

原创 ChatGPT 垫底,Claude 领先,7月底大模型测评榜单出人意料!

ChatGPT,曾经的王者,陷入替身危机。

2025-08-01 16:36:51 2139

原创 一个开源AI牛马神器 | AiPy,平替Manus,装完直接上手写Python!

相比“远走他乡”的Manus,AiPy更像是那个留在你身边、还能本地部署的国产亲儿子。

2025-07-29 18:53:13 1720

原创 AI Agent 落地实测崩盘:成功率仅 30%,我们是不是高估了它?

在无数demo惊艳、发布会狂欢之后,现实业务场景给了用户们当头一棒:表现不稳定、执行力低下、成本控制差,说谎、误删也是家常便饭。实验室 Agent 生活在完美环境中,有清晰的API、有完备的数据、有理想的反馈。但现实世界充满模糊、延迟、冲突,Agent 脱离控制几乎是必然的。AI Agent 的未来,不在于“一个大模型包打天下”,而是有明确任务边界、有结构化输入输出、有失败补救机制以及有清晰人机交界面。真正好用的 Agent,不是让你什么都不做,而是帮你把重复做、做得慢、做得累的部分做得更快更稳。

2025-07-28 19:03:18 914

原创 AI产品迈向智能Agent,必须突破哪两道门槛?

两个点,一是场景智识,二是工具制造,两者缺一不可。

2025-07-25 17:31:14 545

原创 突破传统agent天花板:这个AI直接为你写脚本、调接口、建工具链

这是一个能“自造工具”、解决真实场景问题的 AI Agent,不再是玩具,而是生产力。

2025-07-24 18:14:01 406

原创 如何看待王垠对 Cursor 等 AI 编程的评价「不懂计算机科学的人用好 AI 编程是妄想」?

AI编程的意义恰恰就在,让一个完全不懂代码的人可以向他的朋友炫耀workflow的成果,然后感叹,你真是太牛了,庸俗来说,科技在普通人身上的魅力不就在于此吗?

2025-07-22 15:43:32 631

原创 不会写爬虫?用AI自动抓数据+分析,做出显示器推荐榜单

最近致力于挖掘更多workflow工具的玩法,今天分享下如何在不用python的情况下,直接用指令控制AI工具。我们以“挑选性价比最高的显示器”为主题让AiPy控制本地设备在各电商平台爬数据然后分析给出结果。,因为开源、免费、且本地化部署,能够保护数据安全,Claude系列也可以,除了贵没缺点。②在对话界面输入指令(可由生成式AI整理,如GPT、Deepseek)现在用AI爬数据还蛮方便,比较难的就是在指令上的优化,大家可以多试试。①找到一个可workflow的AI工具,我用的是。

2025-07-21 17:34:48 734

原创 Claude系列和Doubao Seed 1.6,为什么是“最能干活”的大模型?

不难发现,在评估维度评测的五大任务场景中,有一个场景的评分显现出较大的两级分化,那就是交互操作能力,透过热力图与雷达图可以清楚看到,该能力甚至直接影响了最后的评分排比,交互操作类任务仅Claude系列和Doubao Seed 1.6经受住了挑战,而这三个模型分别位列综合评分前三。结合Auto-GPT 与 Agent 架构中对“操作环境”的描述以及AiPy、Autogen等框架中的衡量指标来看,交互操作能力指的是:AI 在理解用户意图后,能否代替用户完整并实际地执行一系列操作。仅有强模型是不够的。

2025-07-18 18:58:21 2921

原创 科研党必备!AiPy一键自动分析 200+篇文献,形成10+张可视化图谱,效率提高500%

一键输入指令,帮你免去一切中间步骤,直达结果。

2025-07-17 16:18:21 748 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除