字节 GUI 代理模型 UI-TARS：具备像人一样的感知、推理、行动能力；SLAM-Omni：支持可控音色的语音对话模型

RTE开发者社区

于 2025-01-23 16:58:50 发布

阅读量1.8k

点赞数 12

文章标签：人工智能

本文链接：https://blog.csdn.net/agora_cloud/article/details/145325482

版权

在这里插入图片描述

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@qqq，@鲍勃

01有话题的技术

1、SLAM-Omni：单阶段训练下支持可控音色的语音对话模型

近几个月来，许多端到端的语音对话系统涌现，旨在解决级联系统中交互延迟过高以及基于文本交互下副语言信息丢失的问题。然而，目前大多数语音对话模型依赖于大量的语音对话数据以及高昂的训练代价，且存在响应音色单一的弊端。

近日，上海交通大学计算机系 X-LANCE 实验室联合微软亚洲研究院推出了面向低资源场景下支持可控音色的语音对话模型——SLAM-Omni。该模型只需要在 4 张 GPU 上单阶段训练 15 小时，即可获得远超此前同等规模模型的对话能力，并且具有优越的语音质量以及生成语音-文本一致性。在更大规模数据集上的实验表明 SLAM-Omni 在中文对话以及多轮对话上都有不俗的表现。

目前所有的数据准备、模型训练、推理已经开源。（@语音之家）

2、字节跳动发布了新一代原生 GUI 代理模型：UI-TARS，具备像人一样的感知、推理、行动能力

字节跳动发布了新一代原生 GUI 代理模型：UI-TARS，具备像人一样的感知、推理、行动能力，它把感知、推理、定位和记忆整合在了一起，不需要提前写规则或设定固定流程即可实现端到端的任务自动化。

其支持跨平台，桌面、移动端、网页等，可以执行复杂的多步骤任务；理解文字、图像、交互多模态输入，可实时监控界面变化，准确响应动态变化；支持点击、长按、快捷键等操作；支持任务分解和反思，具有错误修正能力。(@ AIGCLINK@X)

3、智谱 GLM-PC 开放体验：自主操作电脑的多模态 Agent 再升级

GLM-PC 是基于智谱多模态大模型 CogAgent，全球首个面向公众、回车即用的电脑智能体（agent）。它能像人类一样「观察」和「操作」计算机，协助用户高效完成各类电脑任务。

自 2024 年 11 月 29 日发布 GLM-PC v1.0 并开放内测以来，智谱不断优化升级，最新推出了「深度思考」模式，是结合当前流行的 AI 技术，包括自然语言处理（NLP）和机器学习（ML）等&