受智谱AI邀请,今天早上,人在智谱Agent OpenDay。
又一次见证了历史。
甚至,还抢到了AI给大家发出的200元红包,只能说,谢谢AutoGLM,谢谢老板。
一个月前,智谱载CNCC会议上,正式发布了AutoGLM。
他们发布后,在整个二级市场,掀起了轩然大波,随后就是智谱AI概念股,风起云涌。
一个月后的今天,智谱在他们的OpenDay上,发布了全新的Agent蓝图。
升级版AutoGLM、AutoGLM-Web、GLM-PC。
分别对应手机、浏览器、电脑。
三个系统,三种形态。
而当未来Agent能力完全成熟以后,一个形态就能操控一切,手机、车载、智能家居、电脑等等。
我们可能,就要迈入LLM OS的全新时代了。
什么叫科幻照进现实,这就是。跨越时空,智谱AI完成了7年前老罗在鸟巢那个“理解万岁”的梦。
这三个产品,我一个一个来说。
一. 升级版AutoGLM
一个月前,我已经深度体验过AutoGLM了,也给大家做了很多的测试。
比如我对AutoGLM说:“我29号要去一趟深圳,你帮我定个罗湖地铁站附近的酒店,预算600元以内,大床房。”
又或者“找到我的微信里面的鲜虾包,给他最新的三条朋友圈点赞,并且根据他发的内容写一个有趣的评论”
等等。
这些都是上个月的视频了。
牛逼是当然牛逼的,当时也让我连喊了N句卧槽,深刻的体现了什么叫:“两岸卧槽啼不住,AI已过万重山。”
但是当时的AutoGLM,也有一个很大的问题,我也在文章里面写了。
就是支持的APP太少,当时只支持这几个APP:
同时也不能跨APP操作。
比让我让他搜一个淘宝的衣服,再把链接发群里,也直接GG。
当时我说,可能要几个月的时间,才能再进化一波,因为做这种Agent,周期还真的挺长的。
但是没想到,只过去了一个月,AutoGLM,就又来了一次进化。
又尝试支持了一大部分主流APP。
比如抖音、微博、饿了么、京东、拼多多等等。
而且,这一次,终于,支持跨APP操作了。
以前只能单APP,没法跨APP操作,但是我们人的真实场景,几乎都是各种APP互相跳来跳去,比如在美团外卖和饿了么里比价,比如在小红书里搜旅游攻略去携程订酒店等等。
当Agent,可以跨越各大APP之间的高墙,来替代人在各大APP之间流转,这个商业价值,就有很大的想象空间了。
这是一个人与传统GUI之间的,一个全新的系统。
此名,为LLM OS。
举例一个小case:去小红书上搜一下奶龙的搞笑图,然后发给我的群聊。
完成的很好,几乎没有卡顿,只是在选分享哪个笔记的时候,让我人工选了一下,后续的分享一气呵成。
他们自己还在现场,演示了一个50多步的Demo。
在小红书上总结一下做一道菜需要哪些食材,然后一起在美团下单。
给我看懵逼了。
这次,他们还在便捷性上有了一定的进化。
搞了一个叫快捷口令点东西,其实就是个预设,比如点喜茶这事,每次我都要说一遍:“帮我点一杯距离我最近的喜茶,要椰椰芒芒少少冰,不另外加糖。”
但是现在,可以直接把快捷口令设成点喜茶,以后我就只需要念这三个字就行,不需要再念一大串了,还是挺麻烦的。
不过在我测试下来,成功率比上一版的单一任务成功率要低不少了,毕竟在技术上跨APP就是指数级难度增加。在我的测试中,会出现过很多次卡死、或者出错的情况,特别是带着上下文导航之类的。直接就懵逼了。
不过也就1个月的时间,至少这次已经支持跨APP了,这就是一个非常非常牛逼的起点。
等支持所有APP互相跳转协同的时候,那就是,Agent真正成神的那一刻。
二. AutoGLM-Web
基于AutoGLM技术打造的电脑浏览器版本,支持知乎、Github、芒果TV、百度搜索、微博等等N个网站。
跟手机版AutoGLM类似,用的是同种技术底层,所以也支持跨APP操作。
比如官方现场演示的这个case:
“在百度搜索芒果tv,打开再见爱人,播放最新一集,发弹幕”
这块其实就是生态的一环,为浏览器OS做的布局,不过多赘述了。
三. GLM-PC
这个其实是One-more-thing。
之前我其实就知道,这次OpenDay会发AutoGLM的升级版,他们也提前给我测了。
但是这个PC版,真的是严防死守,直到前一天我拿到当日议程的时候,我才发现,卧槽,要发PC版本的AutoGLM了。
不过也能猜到,既然做了Phone Use,那没理由不做Computer Use对吧。
所以,GLM-PC来了。
不过他们这个命名倒是很有趣,没用AutoGLM的延伸,而是用了GLM-PC。
我直接来放个他们的官方宣传片,让大家感受一下,这玩意的有趣和强大。
一句话操控电脑,完成网页浏览、微信文件发送、参加会议、发送会议总结等等等等。比Claude的Computer Use更适合中国体制。
当时在现场放完以后,全场掌声雷动,鼓掌了十几秒钟不停歇。
我就听着我身边的人,不断的卧槽、卧槽、卧槽。
而且最好玩的是,可以通过手机远程操控电脑。
作为打工人,总会遇到那种,晚上下班了正在外面正跟别人Happy着,突然老板或者甲方一个电话,让你把公司文件发给他,很急、非常急,立刻就要。
过去,你估计已经想把老板杀了,然后找个有电脑的地方,甚至隐私安全注重高一点的,你还得打车回公司。
现在,对着手机一句话,就能让GLM-PC,给你把一切都做了。
真正的实现,用AI,给我自由。
GLM-PC的底座模型是CogAgent,这就是一个能理解界面UI并且进行复杂任务拆解的Agent视觉模型。
大概原理就是,看电脑屏幕,然后规划,在对屏幕元素进行操作,比如点击、输入、滚动等等。
这一套方案,理论上来说,上限无限高。
因为,人,就是这么操作电脑的。
目前场景开放了这几个。
不过我也在现场体验了一下内测版,感觉还是比较基础,感觉更像是一个秀肌肉的产品,跟一个月前刚刚发布的AutoGLM有点像,作为产品,还不是那么的完善。
比如要非常精准的prompt,需要我们先帮他把步骤拆解完给他规划好;比如操作屏幕的速度非常慢;比如目前支持M芯片的Mac等等等等。
但是不影响我,非常看好这条路。
但这毕竟也只是刚刚开始,现在,微软、Google、OpenAI都在疯狂的卷Agent的这条路,GLM大模型团队一个月就能升级这么多,可能只要两个月时间。
一切就变天了。
AI一天,人间一年,这就是AI的速度。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。