阶跃星辰启动「繁星计划」开放平台；运动迁移框架 MotionClone 无需训练，一键克隆视频运动丨 RTE 开发者日报

声网

于 2024-07-16 17:48:26 发布

阅读量524

点赞数 12

文章标签：实时互动人工智能

本文链接：https://blog.csdn.net/agora_cloud/article/details/140472377

版权

在这里插入图片描述

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@JLT，@鲍勃

01 有话题的新闻

1、阶跃星辰启动「繁星计划」开放平台

AI 初创公司阶跃星辰昨日宣布，旗下开放平台「繁星计划」第一期正式启动，将寻找多模态大模型领域的初创企业和优秀独立开发者团队合作。

官方介绍，将为合作伙伴提供免费 Tokens、产品曝光、对接合作、技术支持、RPM/TPM 支持等多方面支持，而对方需要向用户介绍、推广阶跃星辰，并提供模型的使用反馈。（@爱范儿）

2、谷歌全新 AI 训练技术，训练速度提升 13 倍，效率提高 10 倍

Google DeepMind 的研究团队最近发表了一项突破性研究，提出了一种名为 JEST（Joint Example Selection）的新方法，旨在提高大规模多模态学习的效率。

JEST 通过创新的联合样本选择和学习性评分机制，显著加速了模型训练过程，同时提高了模型性能，谷歌声称其新方法可以将 AI 模型的训练速度和能效大幅提升一个数量级，以高达 13 倍更少的迭代和 10 倍更少的计算量超越了最新的模型。（@元力社）

3、腾讯 AI 实验室项目 vta-ldm：输入视频生成对齐音频

腾讯 AI 实验室发布名为 “隐含对齐视频到音频生成” 的新模型 VTA-LDM，该模型能够生成与视频内容在语义和时间上相匹配的音频。研究团队在模型设计上进行了深入探索，结合了多种技术手段，以确保生成音频的准确性与一致性。

实验结果显示，VTA-LDM 模型在生成质量和视频与音频同步对齐方面表现出色，用户可以通过将视频片段放入指定的数据目录并运行推理脚本来生成对应的音频内容。模型提供了多个不同的模型版本，以满足不同的研究需求。（@AI 科技评论）

4、百度推出「文小言」AI 数字人社交 APP

百度公司最近推出了一款名为「文小言」的 AI 数字人社交 APP。这款应用基于先进的文心大模型技术，允许用户与 AI 虚拟角色进行实时沟通、互动，并建立情感联系。文小言 App 采用了仿真的数字人形象，为用户带来更真实、更自然的交互体验。

进入文小言 App 后，用户可以在「发现」功能栏内，通过上下滑动来寻找自己喜欢的数字人聊天对象。每一个 AI 数字人都提供独特的聊天服务，他们可以成为用户的百科全书、生活小助手，甚至是心灵导师。在每个数字人的个人界面上，用户不仅能看到逼真的动态数字人形象，还能了解到他们的年龄、地方、性格、职业等信息，以及一段语音形式的自我介绍。这让用户对每个数字人有了更全面的了解。（@Tech 星球）

5、AI 赋能文字编辑：AiEditor 开源富文本编辑器问世

AiEditor 的开源 AI 驱动富文本编辑器，为文本编辑领域带来新的变化。这款工具融合了人工智能技术，为用户提供智能化的编辑体验，包括实时推荐和修改建议，大幅提升了文字处理的效率和精准度。

作为开源项目，AiEditor 不仅为用户带来了先进的编辑功能，还为开发者社区提供了持续优化和定制的机会。这种开放的特性使得 AiEditor 有望在未来得到更广泛的应用和发展，为各类文字工作者带来更多便利。（@AI 科技评论）

6、MotionClone：无需训练，一键克隆视频运动

在这里插入图片描述

MotionClone 是一个创新的视频运动克隆框架，它突破性地允许用户在无需任何模型训练或微调的情况下，将参考视频中的运动信息一键迁移到新场景中。这项技术通过主成分时序注意力和空间语义引导机制，显著提升了运动质量和空间位置关系的准确性。MotionClone 的实现细节包括 DDIM 反转、引导阶段和高斯掩码，这些步骤共同确保了视频生成过程中运动和语义的全面引导。

该框架无需额外训练或微调，有效提高了运动泛化能力，同时保留了基座模型的生成质量。MotionClone 的引入，为视频生成领域带来了一种即插即用的运动定制化方案，它在保留原有生成质量的基础上，通过高效的运动信息指导和空间语义引导，显著提高了视频生成的质量和可控性。此外，MotionClone 的高扩展性使其能够适配丰富的社区模型，实现多样化的视频生成效果。（@机器之心）