智谱AI全新发布Agent家族，用AI操控一切不再是梦了

最新推荐文章于 2025-03-30 09:38:02 发布

小天才学习机打游戏

最新推荐文章于 2025-03-30 09:38:02 发布

阅读量797

点赞数 22

文章标签：人工智能知识图谱 microsoft prompt chatgpt

本文链接：https://blog.csdn.net/m0_59164520/article/details/144144779

版权

受智谱AI邀请，今天早上，人在智谱Agent OpenDay。

又一次见证了历史。

甚至，还抢到了AI给大家发出的200元红包，只能说，谢谢AutoGLM，谢谢老板。

一个月前，智谱载CNCC会议上，正式发布了AutoGLM。

他们发布后，在整个二级市场，掀起了轩然大波，随后就是智谱AI概念股，风起云涌。

一个月后的今天，智谱在他们的OpenDay上，发布了全新的Agent蓝图。

升级版AutoGLM、AutoGLM-Web、GLM-PC。

分别对应手机、浏览器、电脑。

三个系统，三种形态。

而当未来Agent能力完全成熟以后，一个形态就能操控一切，手机、车载、智能家居、电脑等等。

我们可能，就要迈入LLM OS的全新时代了。

什么叫科幻照进现实，这就是。跨越时空，智谱AI完成了7年前老罗在鸟巢那个“理解万岁”的梦。

这三个产品，我一个一个来说。

一. 升级版AutoGLM

一个月前，我已经深度体验过AutoGLM了，也给大家做了很多的测试。

比如我对AutoGLM说：“我29号要去一趟深圳，你帮我定个罗湖地铁站附近的酒店，预算600元以内，大床房。”

又或者“找到我的微信里面的鲜虾包，给他最新的三条朋友圈点赞，并且根据他发的内容写一个有趣的评论”

等等。

这些都是上个月的视频了。

牛逼是当然牛逼的，当时也让我连喊了N句卧槽，深刻的体现了什么叫：“两岸卧槽啼不住，AI已过万重山。”

但是当时的AutoGLM，也有一个很大的问题，我也在文章里面写了。

就是支持的APP太少，当时只支持这几个APP：

同时也不能跨APP操作。

比让我让他搜一个淘宝的衣服，再把链接发群里，也直接GG。

当时我说，可能要几个月的时间，才能再进化一波，因为做这种Agent，周期还真的挺长的。

但是没想到，只过去了一个月，AutoGLM，就又来了一次进化。

又尝试支持了一大部分主流APP。

比如抖音、微博、饿了么、京东、拼多多等等。

而且，这一次，终于，支持跨APP操作了。

以前只能单APP，没法跨APP操作，但是我们人的真实场景，几乎都是各种APP互相跳来跳去，比如在美团外卖和饿了么里比价，比如在小红书里搜旅游攻略去携程订酒店等等。

当Agent，可以跨越各大APP之间的高墙，来替代人在各大APP之间流转，这个商业价值，就有很大的想象空间了。

这是一个人与传统GUI之间的，一个全新的系统。

此名，为LLM OS。

举例一个小case：去小红书上搜一下奶龙的搞笑图，然后发给我的群聊。

完成的很好，几乎没有卡顿，只是在选分享哪个笔记的时候，让我人工选了一下，后续的分享一气呵成。

他们自己还在现场，演示了一个50多步的Demo。

在小红书上总结一下做一道菜需要哪些食材，然后一起在美团下单。

给我看懵逼了。

这次，他们还在便捷性上有了一定的进化。

搞了一个叫快捷口令点东西，其实就是个预设，比如点喜茶这事，每次我都要说一遍：“帮我点一杯距离我最近的喜茶，要椰椰芒芒少少冰，不另外加糖。”

但是现在，可以直接把快捷口令设成点喜茶，以后我就只需要念这三个字就行，不需要再念一大串了，还是挺麻烦的。

不过在我测试下来，成功率比上一版的单一任务成功率要低不少了，毕竟在技术上跨APP就是指数级难度增加。在我的测试中，会出现过很多次卡死、或者出错的情况，特别是带着上下文导航之类的。直接就懵逼了。

不过也就1个月的时间，至少这次已经支持跨APP了，这就是一个非常非常牛逼的起点。

等支持所有APP互相跳转协同的时候，那就是，Agent真正成神的那一刻。

二. AutoGLM-Web

基于AutoGLM技术打造的电脑浏览器版本，支持知乎、Github、芒果TV、百度搜索、微博等等N个网站。

跟手机版AutoGLM类似，用的是同种技术底层，所以也支持跨APP操作。

比如官方现场演示的这个case：

“在百度搜索芒果tv，打开再见爱人，播放最新一集，发弹幕”

这块其实就是生态的一环，为浏览器OS做的布局，不过多赘述了。

三. GLM-PC

这个其实是One-more-thing。

之前我其实就知道，这次OpenDay会发AutoGLM的升级版，他们也提前给我测了。

但是这个PC版，真的是严防死守，直到前一天我拿到当日议程的时候，我才发现，卧槽，要发PC版本的AutoGLM了。

不过也能猜到，既然做了Phone Use，那没理由不做Computer Use对吧。

所以，GLM-PC来了。

不过他们这个命名倒是很有趣，没用AutoGLM的延伸，而是用了GLM-PC。

‍我直接来放个他们的官方宣传片，让大家感受一下，这玩意的有趣和强大。

一句话操控电脑，完成网页浏览、微信文件发送、参加会议、发送会议总结等等等等。比Claude的Computer Use更适合中国体制。

当时在现场放完以后，全场掌声雷动，鼓掌了十几秒钟不停歇。

我就听着我身边的人，不断的卧槽、卧槽、卧槽。

而且最好玩的是，可以通过手机远程操控电脑。

作为打工人，总会遇到那种，晚上下班了正在外面正跟别人Happy着，突然老板或者甲方一个电话，让你把公司文件发给他，很急、非常急，立刻就要。

过去，你估计已经想把老板杀了，然后找个有电脑的地方，甚至隐私安全注重高一点的，你还得打车回公司。

现在，对着手机一句话，就能让GLM-PC，给你把一切都做了。

真正的实现，用AI，给我自由。

GLM-PC的底座模型是CogAgent，这就是一个能理解界面UI并且进行复杂任务拆解的Agent视觉模型。

大概原理就是，看电脑屏幕，然后规划，在对屏幕元素进行操作，比如点击、输入、滚动等等。

这一套方案，理论上来说，上限无限高。

因为，人，就是这么操作电脑的。

目前场景开放了这几个。

不过我也在现场体验了一下内测版，感觉还是比较基础，感觉更像是一个秀肌肉的产品，跟一个月前刚刚发布的AutoGLM有点像，作为产品，还不是那么的完善。

比如要非常精准的prompt，需要我们先帮他把步骤拆解完给他规划好；比如操作屏幕的速度非常慢；比如目前支持M芯片的Mac等等等等。

但是不影响我，非常看好这条路。

但这毕竟也只是刚刚开始，现在，微软、Google、OpenAI都在疯狂的卷Agent的这条路，GLM大模型团队一个月就能升级这么多，可能只要两个月时间。

一切就变天了。

AI一天，人间一年，这就是AI的速度。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述