智谱AI上线最新“自主智能体”，“Her”终于能照进现实了_glm-4-voice

本文链接：https://blog.csdn.net/HUANGXIN9898/article/details/143742604

在对标OpenAI之路上，智谱AI又近了一步。

今年年初，OpenAI被爆出将自研AI Agent软件，它可替代人类，自动导航至任何网站并执行指定任务。

10月25日，智谱AI推出相似产品——自主智能体AutoGLM，智谱将其称为是一个可模拟用户访问网页、点击网页的浏览器助手。

智谱的展示视频显示，AutoGLM可实现网页进行线上点餐、整理小红书笔记并生成攻略、总结论文等功能。

同时，智谱AI还推出了端到端情感语音模型GLM-4-Voice 。这款情感语音模型不仅能够模拟真实的情感表达，甚至连细微的停顿、喘气都表现得惟妙惟肖。

这一技术的突破，与科幻爱情电影《Her》的部分情节相似。电影中，男主角西奥多与AI助手萨曼莎偶然相识，萨曼莎正是通过富有情感的语音互动让人感到贴近、温暖。

如今，智谱AI的情感语音模型似乎正把《Her》中的科幻场景带入我们的日常生活，人工智能不再只是冷冰冰的工具，而开始具备“情感”与“个性”。

《Her》已经初具雏形，具有自我意识和情感的AI或许不久会出现。

自主智能体上线：能点外卖、夸彩虹屁

与OpenAI的AI Agent相似，智谱清言AutoGLM模型，也无需用户手动操作示范，不受制于简单的任务场景或API调用，即可替代人类在电子设备执行操作。

目前，智谱清言已经与微信、淘宝、美团、小红书等8款知名应用软件合作，覆盖日常生活常用的线上聊天、网购、社交、地图、酒店火车订票等功能。

具体而言，当你向AutoGLM发出指令后，双方之间的对话将以语音形式展现，并实时显示字幕。

例如，你可以要求AutoGLM在大众点评给出指定的店家好评，并自动编辑评论。在执行“发送评论”这一超出指令的操作时，AutoGLM会主动提示是否进行。

你也能让AutoGLM查找淘宝某一时段的历史订单，复购指定商品。

就连向指定微信好友的朋友圈点赞、评论，这一步骤较长的任务也能完成。

除了网购、编辑评论等功能之外，AutoGLM还能批量总结微信公众号多篇文章，并生成文章摘要。

智谱公众号介绍，AutoGLM基于自进化在线课程强化学习框架WEBRL，克服了训练任务稀缺、反馈信号稀少和策略分布漂移等网页智能体研究和应用难题，加之自适应学习策略，能够在迭代过程中不断改进、持续稳定地提高自身性能。这意味着，AutoGLM具备了一定自我纠错能力。

据悉，为了保护用户隐私，AutoGLM不会主动获取用户的个人隐私信息，如果需要执行授权范围之外的任务，AutoGLM会主动提示以获取用户同意。

即使用户向AutoGLM授权，也不意味着AutoGLM永久拥有相关权限。每次后台启动AutoGLM，都会重新向用户申请无障碍权限。

目前，AutoGLM已上线电脑端开放使用，安装清言插件即可使用，手机端AutoGLM正开放安卓手机内测。

情感语音模型，有情感、会停顿

两个月前，智谱清言首次秀了一把语音通话技术，虽然当时语音通话功能能听懂对话、回复还算准确，但语气像是机器人“背稿子”，没啥感情。要是让它来点情感表达，它还会一本正经地告诉你：“作为一个人工智能，无法表达感情”。

不过，现在升级后的情感语音模型，感觉就不一样了。语音听起来更有“人味儿”，还能加点感情，像真人一样跟你聊。

它已经学会了用撒娇、调侃、愤怒、歇斯底里等语气表达。比如，拟人语音能模仿孩子，用撒娇语气向姐姐要糖葫芦。

如果普通话听腻了，没问题，它还能切换为北京、东北、广东、台湾、重庆五地腔调，比如介绍美食时那句经典的“巴适得板”，直接让人食欲大开。

玩角色扮演游戏也不成问题，可以把它设定为《哈利波特》中的反派伏地魔与你战斗，并能要求它以指定的语气进行扮演。比如它能以电视剧中常见的反派语气说话。

如果挑战绕口令加速，它可能就会“翻车”了，发音有点“飘”。

不过在某些时候，拟人语音说话时偶尔会出现短暂的电流声。

另外，发音偶尔也可能不标准，比如将为什么的“为”，发音为“微”。

据了解，GLM-4-Voice结合了自然语言生成（NLG）和语音合成技术，相比传统的TTS技术（Text-to-Speech），拟人语音能够理解上下文语境，实现富有情感的自然对话。

此外，GLM-4-Voice以音频 token 的形式直接建模语音，在一个模型里面同时完成语音的理解和生成，信息损失和误差积累相比传统级联方案更少，理论上有着更高的建模上限。

这不是清言拟人语音通话的全部功能，其对标GPT 40，将在响应和打断速度、情绪感知情感共鸣、语音可控表达、多语言多方言等方面进一步突破。目前，其已实现不同情绪，各地方言说话时，还能调节语速、音量，实现与真人般的对话。

目前，GLM-4-Voice已上线清言app，用户可与清言自然聊天。值得注意的是，GLM-4-Voice已对外开源，这是智谱AI首个开源的端到端多模态模型。

下一步，它还将支持视频通话功能，届时不仅能认出物体，还能用语气带来“眼神交流”的互动感。

据智谱公众号，智谱发布从文本、图像、视频到情感语音模型等多模态，并让AI学会使用各种工具，原因在于其打造了新的基座模型——GLM-4-Plus。在语言文本能力方面，GLM-4-Plus和GPT-4o、405B参数量的Llama3.1 相当。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述