讯飞星火极速超拟人交互技术：语音端到端，8 月底开放；昆仑万维发布 AI 短剧平台 SkyReels丨RTE 开发者日报

RTE开发者社区

于 2024-08-20 18:08:53 发布

阅读量1.1k

点赞数 18

文章标签：人工智能实时互动

本文链接：https://blog.csdn.net/agora_cloud/article/details/141362716

版权

在这里插入图片描述

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01有话题的新闻

1、昆仑万维发布全球首个集成视频大模型与 3D 大模型的 AI 短剧平台 SkyReels

昆仑万维于 8 月 19 日发布全球首个集成视频大模型与 3D 大模型的 AI 短剧平台 SkyReels。SkyReels 平台集剧本生成、角色定制、分镜、剧情、对白/BGM 及影片合成于一体，让创作者「一键成剧」，轻松制作高质量 AI 视频。奇幻大片、凄美虐恋、爆笑喜剧……只要输入一个简单创意，SkyReels 就能完成从剧本到成品短剧制作全流程。

SkyReels 平台集成了昆仑万维自研剧本大模型 SkyScript、自研分镜大模型 StoryboardGen、自研 3D 生成大模型 Sky3DGen、以及业界首个将 AI 3D 引擎与视频大模型深度融合的创新平台 WorldEngine。

SkyReels 能够通过 AI 一键生成完整剧本、分镜、人物对白与 BGM，支持角色形象、音色与分镜的自定义调整，并能够自动将内容转换为 1080P 60 帧的高清视频，单次可生成视频长度达 180 秒，相比 Sora 单次可生成 60 秒视频、可灵单次可生成 10 秒视频，有显著突破。一键整合所有创作成果，极大提高视频的创作效率，降低创作成本，推动「一人一剧」时代加速来临。（@机器之心）

2、科大讯飞推出星火极速超拟人交互技术，对标 GPT-4o

科大讯飞宣布对星火语音大模型进行更新，正式推出星火极速超拟人交互，在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现突破，对标 GPT 4o。

响应和打断速度：官方称即便被频繁打断，也能「迅速反应」，更加符合日常对话情境

情绪感知情感共鸣：升级后的版本可以针对高兴、悲伤、生气、害怕等情绪进行识别，自动带入符合情境的对话，用合适的情绪语气进行回复

语音可控表达：在交流中能够跟随用户指令控制数十种情感、风格、方言，支持调节语速

人设扮演：能够模仿包括孙悟空、蜡笔小新、小猪佩奇等多种角色的音色、语气，还会模仿他们的人设与用户聊天

此次星火极速超拟人交互采用统一神经网络直接实现语音到语音端到端建模，大幅缩短响应时间的同时，提升交互拟人度和流畅度。该项技术将于 8 月底在讯飞星火 APP 上全民开放使用。（@IT 之家）

3、阿里通义千问宣布启用新域名「tongyi.ai」，网页版聊天新增深度搜索功能

阿里大语言模型「通义千问」于 8 月 19 日宣布启用新域名「tongyi.ai」，并带来多项新功能。

网页版聊天新增深度搜索功能：支持更多内容源索引，搜索结果更加深度、专业和结构化，数字角标悬浮显示来源网页

App 图片微动效支持多尺寸图片：进入通义 App 频道页，选择「图片微动效」，需要上传一张图片，即可生成与画面匹配的音效及微动视频效果

App 自定义唱演支持 3:4 画幅（原先 1:1）：音频的上传逻辑进行调整，将时长由 120S 提高到 300S

阿里云在 8 月 8 日的万网焕新发布会上宣布，域名产品服务完成 AI 化系列改造，推出首个域名 AI 大模型应用，并上线「.ai」等 40 余个全新的域名后缀、2000 万个全球域名资源。

据阿里云官方介绍，升级后的阿里云万网，实现了智能起名。用户输入只需输入品牌信息与所属行业，一键点击后，基于通义大模型就能批量生成创意域名。（@IT 之家）

4、Linly-Dubbing：一个开源的多语言 AI 配音和视频翻译工具
在这里插入图片描述

Linly-Dubbing 是开源的多语言 AI 配音和视频翻译工具，支持下载 YouTube 等网站上的视频、多语言配音和字幕翻译，能转换语音为文本、识别说话者并准确翻译，还能用声音克隆和口型同步技术，用户可上传视频、选择语言和标准。虽口型匹配效果有待提高，但整体获好评，被认为是方便视频搬运和线上会议实时字幕的有力工具。

主要功能

自动下载视频：支持从 YouTube 等网站下载视频

多语言支持：支持中文及多种其他语言的配音和字幕翻译。

AI 语音识别：精准的语音识能力，语音到文本转换和说话者识别。

LLM 翻译：结合领先的大语言模型（如 GPT），快速且准确地进行翻译，确保翻译的专业性和自然性。

声音克隆：通过声音克隆技术，生成与原视频配音高度相似的语音，保持情感和语调的一致性。

口型同步：通保持口型同步，使配音与视频画面高度契合，提升视频的真实性和互动性。

灵活上传与翻译：用户可以上传视频，自主选择翻译语言和标准，确保个性化和灵活性。（@小互 AI）

5、Melodisco：AI 版的网易云音乐，一个开源的 AI 播放器

Melodisco 是由 @idoubicc 开发的开源 AI 播放器，该项目最初的目标是创建一个 AI 版的网易云音乐，现已收录了 30 万首 AI 歌曲，并且可以通过 Vercel 进行一键部署。该播放器的主要功能包括音乐生成、歌曲排行榜、随机漫游、歌曲管理以及播放器组件。此外，Melodisco 还集成了 Stripe 支付系统，支持在线购买服务或产品。（@小互 AI）