Cyber Weekly #47

赛博·新闻

1、OpenAI发布Agent工具包

本周三(3月12日),OpenAI发布了专为构建AI Agent设计的全新工具包,包括Responses API、三种内置工具(Web搜索、文件搜索、计算机使用工具)开源Agents SDK,旨在降低开发者构建生产级AI Agent的技术门槛。其中,Responses API整合了Chat Completions API的简洁性与Assistants API的工具调用能力,支持单次API调用解决复杂任务;Web搜索工具基于GPT-4o模型提供实时信息检索;文件搜索工具支持多格式文档处理与元数据过滤;计算机使用工具依托CUA模型实现电脑界面自动化操作,在WebVoyager基准测试中达87%准确率。Agents SDK则基于Swarm框架升级,提供多Agent协作编排、安全检查及可视化追踪功能。这些工具已在资产分析、旅行规划、企业数据搜索等场景落地,如Hebbia用Web搜索提取金融见解,Navan将文件搜索集成到旅行Agent中。网友评论戏称此举为“感谢Manus AI”,暗指其对行业的推动作用。OpenAI计划逐步整合API功能,预计2026年停用Assistants API,并通过新工具推动AI Agent从辅助工具向“数字同事”演进,覆盖从推荐到售后的全流程工作流,助力企业提升生产力。

2、Manus宣布与通义千问团队合作

本周Manus与阿里通义千问达成战略合作,将基于通义千问系列开源模型(尤其是QwQ-32B)在国产算力平台上实现全功能适配。此举旨在解决Manus当前面临的算力消耗大、成本高及任务延迟问题,同时满足中国市场的数据合规需求。通义千问QwQ-32B在数学、代码等能力上与DeepSeek-R1比肩,其高效推理性能可提升Manus的复杂任务处理效率。双方合作聚焦技术深度融合,阿里云的分布式计算资源将优化Manus的云端虚拟机架构,降低百万token调用成本。此外,双方均强调开源传统,未来或推动更多技术开源。

3、Google推出开源多模态模型Gemma 3

本周三(3月12日),谷歌发布了开源模型Gemma 3,其27B版本在单GPU/TPU上运行时性能突出,在LMArena排行榜中击败671B的DeepSeek V3和o3-mini,仅落后于R1,且所需算力资源较其他同性能模型减少10-32倍。Gemma 3支持多模态(文本、图像)和多语言(超140种),拥有128K上下文窗口,可在手机(如三星S24 Ultra)和电脑(如MacBook Pro M3)等端侧设备高效运行。技术上采用蒸馏、强化学习等优化方法,结合英伟达GPU和谷歌TPU的针对性适配,实现性能与能效的平衡。开发者可通过Hugging Face、Ollama等平台调用,支持函数调用和结构化输出,适合构建AI Agent。尽管未与QwQ 32B直接对比,Gemma 3凭借开源生态和轻量化优势,已在社区下载量超1亿次,成为端侧部署和多模态应用的重要选择,推动了开源模型竞争的进一步升级。

4、Gemini 2.0推出原生多模态生图功能

本周四(3月13日),Google DeepMind的Gemini 2.0推出了备受期待的原生多模态生图功能,通过强大的多模态理解与生成能力,实现了“用嘴改图”的AI绘图新范式。用户只需通过文字描述即可对图片进行精准修改,如调整人物发型、表情、替换物品甚至融合多张图片,无需借助PS等专业工具。其不仅支持图片编辑,还能生成图文混排的教程、房屋平面图渲染及故事分镜等复杂内容,展现了从草图到实景的高效转化能力。尽管生成质量与稳定性仍有提升空间,但该功能已实现“言出法随”的核心突破,将创意门槛降至最低,让普通用户无需专业技能即可快速实现设计需求。文章认为,这一进展标志着生成式AI在图像编辑领域的革命性跨越,使AI真正成为大众创作的赋能工具,推动了“AI时代”的创意民主化进程。

5、百度发布文心4.5与深度思考模型X1

百度在文心一言发布两周年之际(2025年3月16日),推出原生多模态大模型文心4.5与深度思考模型X1。文心4.5作为国内首个原生多模态基座模型,突破传统拼接式架构,实现图文音视频的统一理解,支持文物鉴定、电影片段解析等复杂场景(虽仍有“哪吒误认迪士尼”的瑕疵),其API价格仅为GPT4.5的1%(输入0.004元/千tokens),主打“普惠多模态”;深度思考模型X1则以“长思维链”对标DeepSeek-R1,通过递进式强化学习和工具调用(代码生成、图表分析等10余种工具),在中文推理、文学创作等场景展现更贴近人类的深度决策能力,价格低至R1的一半(输入0.002元/千tokens)。两款模型同步在文心一言官网免费开放,提前兑现“4月1日全面免费”的承诺。

赛博·洞见

1、屏蔽噪音,Manus 给我的 3 个启发

文章以产品经理视角剖析了Manus带来的三大启示:

  1. 过程透明化与可干预性:针对AI任务高失败率问题,Manus通过完整展示任务执行过程(如todo.md机制)和允许用户实时干预,既降低了付费用户的赔付风险,又提升了信任度。这种设计让用户清晰了解AI工作流程,可复用中间成果,甚至在任务卡点时主动介入,有效平衡了结果不确定性与用户体验。
  2. 减少人工干预的智能探索:Manus秉持“Less Structure, More Intelligence”理念,通过为模型配备浏览网页、调用工具等辅助能力,尽量减少预设工作流,让AI自主规划任务路径。尽管受限于工程能力未完全端到端整合,但这种模式为通用Agent提供了人机协同的新范式——机器负责可自动化部分,人类处理复杂或需创意的环节。
  3. 产品创新的行业价值:Manus通过整合工具链和优化交互设计,将复杂任务的使用门槛降至新低,证明了通用Agent的可行性。尽管其技术可能被开源社区快速复现,但其产品工程层面的创新(如任务重播、动态调整)对行业具有标杆意义,与DeepSeek的底层突破形成互补,共同推动AI应用普惠。

文章指出,Manus虽面临垂直领域竞争、供应链整合等挑战,但其创新实践为AI产品设计提供了重要参考,尤其在人机协作边界探索和用户体验优化方面具有深远启发。

2、03.10.25: 被 AI 折叠的组织

这篇文章探讨了AI时代对组织和团队结构的深刻影响。作者指出,传统基于流水线分工的“次优组织设计”导致信息断层和管理低效,而AI代理(如Manus)的出现正打破“设计-实施”的分工壁垒,实现端到端流程整合。未来产品团队可能精简为产品经理、设计师和工程师三人,90%以上交付工作由AI完成,人力成本大幅降低。AI不仅替代重复性任务,更推动“人才折叠”,要求员工具备更高抽象思维能力,从执行转向监督、整合AI输出。微软研究显示,人类工作重心转向验证信息、整合AI成果和承担决策风险,组织形态向扁平化、通用化演变。企业本质因交易成本降低而发生变革,传统层级管理模式逐渐失效,新型组织需适应AI驱动的协作范式,未来竞争优势将属于能重构人机协作的企业。

3、当AI让所有人”无用”:Anthropic CEO 的未来社会观

Anthropic CEO达里奥·阿莫代在近期访谈中指出,AI技术正以指数级速度发展,编程领域或在12个月内实现AI编写几乎所有代码,这一趋势将逐步蔓延至所有行业,最终导致AI取代人类大部分工作。他强调,尽管短期内人类仍需负责目标设定、设计决策和安全审查等环节,但随着AI能力的持续提升,这些“人类根据地”将被逐步攻克,可能引发大规模失业和社会分裂。Anthropic内部采用ASL(AI安全级别)标准评估模型风险,当前所有模型处于ASL-2级,对应具备人类中等能力的大模型;ASL-3级及以上将涉及更高风险,如AI自主研发或辅助制造生化武器,需更严格的安全措施,包括内部访问控制、红队测试等。阿莫代认为,AI可能在2026-2028年达到ASL-4级,具备发明创新能力。他同时指出,AI在生物医学、能源基建等领域的应用将推动社会进步,但需警惕其对就业市场的冲击、国家安全风险(如军备竞赛)及自主性失控风险。建议政府加强监管协作、完善社会保障体系,并通过透明沟通提升公众对AI风险的认知。尽管担忧重重,阿莫代仍认为AI有潜力加速科学突破,关键在于平衡技术发展与安全伦理,呼吁社会在有限时间窗口内采取行动。

4、独家现场!YC W25融资冰火两重天,9张图看清硅谷创投生死局

YC W25 Demo Day展现了硅谷创投的冰火两重天:尽管AI项目占比高达82%,但同质化严重,多数集中在垂直行业解决方案,消费级AI仍处冰河期,仅10%项目聚焦模型开发,且半数未出圈即遭淘汰;国防军工项目因制造业回流成为新宠,如无人舰艇、微重力制造等硬科技受青睐。融资呈现两极分化,融资金额集中在150万-200万美元,估值居高不下,部分项目已完成融资离场,未融满者仍在努力。创业者画像显示,连续创业者和科技大厂背景者占主流,华人团队占比达1/5,多深耕AI垂直领域,如法律、医疗等,硬科技方向(如人形机器人)华人技术优势显著。YC通过“豪赌式”投资逻辑(20万美元换7%股权)持续孵化潜力项目,尽管整体缺乏颠覆性创新,但AI与国防科技赛道仍被视为孕育下一个独角兽的温床,反映出硅谷在技术迭代与资本博弈中的生存法则。

5、万字对谈 Perplexity 增长负责人:人们需要听到你的产品 3 到 7 次,才会真正尝试一次

Perplexity增长负责人Raman Malik在访谈中分享了其独特的增长策略:增长是「直觉与数据的游戏」,需平衡微优化与高风险创新。他强调,留存率10%的提升即可显著扩大活跃用户基数,但需每季度尝试25%成功率的高风险实验。自然增长与口碑推荐贡献80%用户,留存率显著高于付费渠道,因此需优先优化用户组合结构,聚焦高价值群体(如学生、专业人士),通过跨设备使用和产品改进提升留存。在获客上,他主张谨慎对待付费广告,认为其可能侵蚀自然流量,更应通过合作伙伴关系和社区运营触达新受众,如与体育界名人合作扩大品牌影响力。团队建设方面,倾向招募有创业经验的成员,打造「爵士乐队」式灵活文化,鼓励自主探索与快速试错。他还指出,品牌营销需通过多次曝光建立认知,用户通常需接触产品3-7次才会尝试,而病毒式分享(如Spotify Wrapped模式)是最有效的增长杠杆。Perplexity的核心策略是通过数据驱动的精细化运营,将好奇流量转化为长期价值,同时保持对新兴渠道的敏锐探索,在AI应用层构建可持续的增长飞轮。

6、Flagship 创始人:AI for Science 的下一步是 Multi-Agent

Flagship Pioneering的核心目标是将创业转变为一种专业化、机构化的活动,以团队形式运作,制定明确目标,更有效地创造价值。其孵化流程包含探索、原型公司、新公司和成长公司四个阶段,通过系统性方法在高不确定性领域中系统化创新,将科学突破转化为商业价值。公司热衷于在“无人占领”的独特领域进行创新,战略是探索前沿未开发领域,押注平台型公司,认为平台型公司更适合用于前沿、未充分开发领域的探索,而资产型模式更合适在已经被初步验证的路径上放大价值。目前最感兴趣的是能够实现涌现性能的多智能体系统,期望实现科研自动化,其最新孵化的Lila Science就是一个“科学超级智能”平台。 在投资布局上,Flagship采用“涌现式”思维模式,强调实验精神,广泛涉足治疗药物研发、营养、农业、气候等不同领域。在管理不确定性方面,区分了“风险”和“不确定性”,应对之道是进行实验。此外,提出“polyintelligence”概念,认为未来的智能生态是由人类智能、机器智能与自然智能构成的动态系统,人类的价值在于以独特方式参与这个三方系统,贡献特有的思维模式、创造力和目标导向。

7、简明科普:DeepSeek Infra开源周解读

DeepSeek在开源周集中展示了其在AI基础设施领域的技术突破,通过发布FlashMLA、DeepEP、DeepGEMM、DualPipe&EPLB和3FS五大核心项目,系统性优化了大模型训练与推理的效率。其中,FlashMLA通过Hopper GPU专用的KV分块和共享内存优化,将H800性能压榨至90%利用率;DeepEP抛弃传统NCCL通信库,基于NVSHMEM手搓全对全通信方案,实现计算与通信1:1重叠;DeepGEMM针对GEMM操作进行底层SASS指令级优化,在特定场景下实现2.7倍性能提升;DualPipe双向流水线结合EPLB负载均衡器,解决了大参数MoE模型训练中的显存与通信瓶颈;3FS文件系统通过SSD与RDMA网络协同,将推理阶段的KV缓存成本降低90%以上。这些项目均针对MoE架构的稀疏性特点,通过硬件感知的底层优化、通信与计算重叠设计及高效数据管理,实现了从训练到推理的全链路性能突破,同时通过开源促进社区协作,推动AI硬件资源利用率进入新范式,为AGI时代的高效能计算提供了关键技术支撑。

8、我发现了DeepSeek R1与飞书多维表格的隐藏玩法,从此告别信息过载

作者Super黄,文章介绍了一种利用DeepSeek R1与飞书多维表格构建专属好文推荐网站的创新方法,通过三步实现信息过滤与自动化处理。首先,基于免费版飞书创建智能多维表格,设计链接、全文提取、标题、金句提炼等AI字段,利用DeepSeek R1自动生成内容摘要和金句;其次,通过飞书开放平台创建应用并配置权限,使用Trae等AI编程工具生成前后端代码,将表格数据转化为可视化网页;最后,开发浏览器插件实现一键保存文章到表格的功能。该方案通过“分而治之”的产品思维,将复杂系统拆解为独立模块,降低开发难度并提升灵活性,实现了从内容收集、AI处理到网页展示的全流程自动化。核心优势在于飞书多维表格的可视化数据库能力与DeepSeek R1的自然语言处理技术结合,无需编程基础即可构建个性化信息平台,有效解决信息过载问题,同时为后续功能扩展提供了模块化框架。这种组合不仅展示了AI与低代码工具的协同潜力,也为普通人参与AI应用开发提供了可行路径。

9、深度|当二次元遇到AI:百万年轻人涌入的赛博漫展如何炼成?

狸谱App通过"技术下沉"策略,将AI从极客工具转化为Z世代的社交狂欢玩具,成功在二次元领域掀起百万年轻人参与的赛博创作热潮。其核心在于用"一键炖图"功能消除创作门槛,允许用户通过简单指令生成动漫形象,并通过NPC角色实时互动赋予作品情感温度。产品通过"脑洞闯关"游戏化设计将AI的不确定性转化为创作乐趣,用"万物变挂件"功能将虚拟形象实体化为情感载体,实现从工具到文化符号的跃迁。数据显示,用户日均尝试11.2次闯关,生成7000万张作品,印证了技术平权下的情感消费需求。狸谱重构了AIGC价值体系,将行业关注点从效率替代转向情感密度,用户愿为"失控中的惊喜"付费而非精准工具。其爆发式增长(4个月百万MAU)和游戏级迭代速度(1月上线7大功能),标志着AI产品首次以娱乐化定位颠覆传统生产力工具格局。未来,该平台通过虚拟角色IP化、虚实联动消费闭环,正在从社区向"数字文明"入口进化,揭示出AI与二次元碰撞的本质:不是追求效率,而是解放人性的创作狂欢

10、从放弃的AI浏览器到通用Agent:完整复盘 Manus的诞生过程

Manus的诞生源于"蝴蝶效应"团队对AI产品形态的深度反思:在放弃因用户体验缺陷而终止的AI浏览器项目后,团队基于异步任务处理的技术积累,创新性地提出"Less Structure, More Intelligence"的产品哲学,通过为大模型配置虚拟服务器和系统权限,实现了通用型AI助手Manus的核心突破。该产品突破传统聊天机器人的A-B对话模式,可并行执行多任务并实时接收用户干预,其异步交互架构源自AI浏览器项目中"AI不应打断用户"的教训。Manus通过模拟极客程序员的计算思维,将编码能力转化为解决复杂问题的通用媒介,在GAIA基准测试中以1/10成本超越OpenAI Deep Research的成绩。团队认为智能体能力的关键在于"对齐"而非基础模型能力,通过调整训练数据和规划器架构,使Manus具备类似人类实习生的任务处理逻辑。这一突破印证了"壳"的价值——将模型创新转化为用户可感知的产品形态,而团队在"套壳"实践中积累的模型感知力和敏捷迭代能力,正是Manus快速进化的核心驱动力。未来,Manus将通过与国产模型的合作,持续探索通用Agent在垂直场景的应用边界。

11、普通人的AGI技术月评 2025.01-02

文章聚焦2025年1-2月AGI技术进展,指出当前技术主线为深度推理能力提升,并呈现四大核心趋势:

  1. DeepSeek的开源突破:通过V3和R1模型证明国产开源技术的工程实力,R1成为首个复现OpenAI o1推理过程的开源模型,其开源策略引发社区共振,加速技术普惠。但需理性看待其技术定位,本质仍属现有路线的优化而非代际突破,其破圈更多受政治经济因素推动。
  2. 海外大厂的Next Level竞争:OpenAI、Anthropic、Google等推出o3、Claude 3.7、Gemini 2.0等模型,强化深度思考与混合推理能力,但现有评测体系难以客观衡量模型真实智能水平,Scaling Law仍是模型潜力的核心支撑。
  3. Agent的黎明:OpenAI通过Deep Research和Operator探索搜索与任务自动化Agent,Claude 3.7在宝可梦游戏中展现规划与连续行动能力,Manus则尝试构建通用Agent雏形。尽管通用Agent形态未定,但基于深度思考的场景化应用已现端倪,代码之外的高价值场景逐步解锁。
  4. 机器人领域的突破:Figure Helix实现视觉-语言-动作模型整合,宇树科技通过春晚展示运动控制实力,预示AI与物理世界交互的加速。机器人量产进入家庭的时间窗口已近,需提前应对伦理与社会挑战。

整体来看,AGI技术正从单点突破转向系统性能力整合,开源生态与工程优化成为关键驱动力,而Agent与机器人领域的进展标志着AI从数字世界向物理世界的渗透加速。

赛博·工具

1、tldraw

小巧强大的在线绘图工具。

2、QR Code Generator

一个网页应用,可以定制二维码的颜色、斑点、徽标。

3、Mono

制作内容分享卡片的免费网站。

赛博·资源

1、2025中国AI Agent行业研究报告(二)(关注公众号【产品老A】回复【2025中国AI Agent行业研究报告2】下载)

甲子光年撰写,该行业报告聚焦AI Agent的发展演进与产业变革,指出大模型技术突破推动AI Agent从被动工具向主动智能体跨越,其核心能力包括自主决策、多模态感知、动态规划及终身学习,实现从“工具”到“协作者”的范式升级。AI Agent通过认知能力三重重构(感知层打破模态边界、决策层构建动态规划、进化层实现终身学习),成为企业级“数字员工”,预计2026年覆盖70%的企业复杂决策场景。在商业实践中,金融、医疗、教育等领域已实现场景化突破,如沃尔玛供应链优化、Zendesk客服效率提升,同时催生“智能体平台”商业模式,形成开发者-用户-模型协同进化的生态闭环。未来趋势呈现轻量化(小模型、低能耗)、泛在化(云边端协同)、多模态交互及伦理合规化方向,DeepSeek等技术验证了开源模型的普惠潜力。然而,行业面临算力瓶颈、数据隐私、伦理责任及技能鸿沟等挑战,需通过算法创新、能效革命和跨领域协作应对,推动AI Agent从技术概念迈向规模化落地,加速AGI时代的到来。

2、李宏毅:AI Agent(关注公众号【产品老A】回复【AI Agent】下载)

本文围绕AI Agent展开,探讨其定义、实现方式及关键能力。AI Agent区别于传统AI的单指令执行,能自主规划多步行动以达成目标。基于大语言模型(LLM)的AI Agent通过自然语言描述目标,由LLM生成行动序列,实现类人化任务处理,如下棋、虚拟村庄互动、Minecraft场景模拟及网络操作等。其核心能力包括经验学习(如通过记忆机制和RAG技术优化决策)、工具调用(整合搜索引擎、Python等外部工具)及动态规划(适应环境变化调整策略)。然而,当前AI Agent仍面临挑战:过度依赖工具可能导致错误(如不合理的温度预测),复杂任务中的长链推理易失效,且缺乏对物理世界的深度理解。未来发展需突破记忆管理、多模态感知及自主反思能力,实现更接近人类智能的自主决策与灵活应变。

3、屠龙之术:manus没有秘密(关注公众号【产品老A】回复【manus没有秘密】下载)

该分享围绕AI Agent的发展展开,重点解析了Manus的技术突破与行业意义。作者通过对比L1至L3的AI能力演进,指出Manus通过“Less structure”理念实现了通用智能体的关键跨越,其核心在于让AI自主探索任务流程,而非依赖预设的结构化框架。通过虚拟机与浏览器自动化的结合,Manus能模拟人类执行复杂任务,如数据分析、多工具协作和跨平台操作,并在GAIA测试中展现出L3级别的解题能力。尽管存在模型幻觉、任务中断等不足,但其“让用户看见AI思考过程”的产品设计理念(如会话回放功能)显著降低了技术门槛。作者还探讨了Agent的本质争议,认为其本质是“模型+产品”的双叙事,Manus的价值在于将抽象的Agent概念具象化为可感知的工具,验证了通用AI在垂直场景的落地可能。同时,作者反思了行业对“套壳”“开源复现”等质疑的片面性,强调产品化能力(如用户体验、工程优化)的重要性,并通过案例展示了Manus在复杂任务中的潜力与局限,预示着AI Agent时代的到来将重塑人机协作模式。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

老A的AI实验室

给博主点一杯卡布奇诺

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值