【AI OpenAI VoiceEngine】OpenAI 介绍 Voice Engine

从零开始学AI

已于 2024-04-16 14:56:28 修改

阅读量1.3k

点赞数 54

分类专栏： AI 文章标签：人工智能语音识别

于 2024-04-01 10:48:43 首次发布

本文链接：https://blog.csdn.net/mahone3297/article/details/137224494

版权

AI 专栏收录该内容

59 篇文章 4 订阅

订阅专栏

OpenAI展示了其VoiceEngine语言技术，能生成自然、逼真的15秒语音。尽管有潜力改善教育、翻译和医疗服务，但考虑到安全风险，如语音冒充，OpenAI暂未大规模发布，强调负责任的部署和防范措施。

摘要由CSDN通过智能技术生成

OpenAI 介绍了 Voice Engine 语言技术，效果很好。但，涉及到各种安全问题，暂不发布。

应对合成声音的挑战和机遇

我们正在分享 Voice Engine 的小规模预览中获得的经验教训，Voice Engine 是一个用于创建定制声音的模型。

OpenAI致力于开发安全且广泛受益的人工智能。今天，我们分享了一个名为Voice Engine的模型的初步见解和结果，该模型使用文本输入和单个15秒的音频样本来生成听起来自然的语音，其声音与原始讲话者非常相似。值得注意的是，一个小型模型和一个15秒的样本就能创造出富有感情和逼真的声音。

我们首次于2022年末开发了Voice Engine，并将其用于驱动文本到语音API中提供的预设语音，以及ChatGPT Voice和Read Aloud。与此同时，我们正在谨慎而理性地对更广泛的发布采取态度，因为合成语音可能被滥用。我们希望开启关于合成语音负责任部署的对话，以及社会如何适应这些新能力。基于这些对话和小规模测试的结果，我们将更明智地决定是否以及如何在规模上部署这项技术。

Voice Engine早期应用

为了更好地了解这项技术的潜在用途，去年年底我们开始私下与一小群信任的合作伙伴进行测试。我们对这个小组开发的应用感到印象深刻。这些小规模的部署正在帮助我们了解如何将Voice Engine用于各行各业的好处，以及我们应该采取的方法、保障措施和思考。一些早期示例包括：

通过自然、富有感情的声音，为非阅读者和儿童提供阅读帮助，代表的说话者范围更广，比预设语音所能实现的要广泛。致力于儿童学业成功的教育科技公司Age of Learning一直在使用这项技术来生成预先脚本化的配音内容。他们还使用Voice Engine和GPT-4来创建实时、个性化的回应，与学生互动。借助这项技术，Age of Learning已能够为更广泛的受众创建更多内容。
1. Reference audio …
2. Generated audio …
将内容翻译成视频和播客等形式，使创作者和企业可以流利地、以自己的声音触达全球更多人群。这方面的早期采用者之一是HeyGen，他们是一家人工智能视觉叙事平台，与企业客户合作创建各种内容的定制、人类化的头像，从产品营销到销售演示。他们使用Voice Engine进行视频翻译，这样他们就可以将发言者的声音翻译成多种语言，触达全球观众。在翻译时，Voice Engine保留了原始说话者的本地口音：例如，使用来自法国说话者的音频样本生成英语，会产生带有法国口音的语音。
1. Reference audio …
2. Generated audio …
通过改善偏远地区的基本服务交付，来触及全球社区。Dimagi正在开发工具，帮助社区卫生工作者提供各种基本服务，比如为哺乳母亲提供咨询服务。为了帮助这些工作者发展技能，Dimagi使用Voice Engine和GPT-4，以每位工作者的母语为基础提供互动反馈，包括斯瓦希里语或肯尼亚流行的混合代码语言Sheng等非正式语言。
1. Reference audio …
2. Generated audio …
支持非语言交流的人群，比如针对影响语言的条件的治疗应用和针对学习需求的教育增强。Livox是一款AI替代性沟通应用，为增强和替代性沟通（AAC）设备提供支持，使残障人士能够进行沟通。通过使用Voice Engine，他们能够为非语言交流的人提供独特且非机器人化的声音，覆盖多种语言。他们的用户可以选择最能代表自己的语音，并对多语用户来说，在每种语言中保持一致的语音。
1. Reference audio …
2. Generated audio …
帮助患者恢复语音，对于那些患有突发性或退行性语言障碍的患者。Lifespan的诺曼·普林斯神经科学研究所是一家非盈利健康系统，是布朗大学医学院的主要教学附属机构，正在探索在临床环境中使用人工智能的应用。他们一直在试点一个项目，为患有肿瘤性或神经病因的语言障碍个体提供Voice Engine。由于Voice Engine只需要一个很短的音频样本，医生Fatima Mirza、Rohaid Ali和Konstantina Svokos能够利用一名患有血管性脑肿瘤而失去流利语言的年轻患者的视频音频来恢复她的语音，这段视频是为学校项目录制的。
1. Reference audio …
2. Generated audio …

安全构建Voice Engine

我们认识到生成类似人们声音的语音存在严重风险，特别是在选举年。我们正在与来自美国和国际各界的合作伙伴进行合作，这些合作伙伴来自政府、媒体、娱乐、教育、民间社会等领域，以确保我们在构建过程中纳入他们的反馈意见。

今天测试Voice Engine的合作伙伴已经同意遵守我们的使用政策，该政策禁止未经同意或合法权利的情况下冒充其他个人或组织。此外，我们与这些合作伙伴的条款要求从原始发言者获得明确且知情的同意，我们不允许开发人员构建让个别用户创建自己声音的方式。合作伙伴还必须向他们的受众明确披露，他们听到的声音是由人工智能生成的。最后，我们已经实施了一系列安全措施，包括对由Voice Engine生成的任何音频进行水印标记，以追踪其来源，并主动监控其使用方式。

我们相信，任何广泛部署合成语音技术都应伴随着语音认证体验，验证原始发言者是否知情地将他们的声音添加到服务中，并具有检测和防止创建过于相似于知名人物声音的不允许列表。

展望未来

Voice Engine 是我们承诺的延续，旨在了解技术前沿并公开分享人工智能所能实现的可能性。与我们对人工智能安全的态度和自愿承诺一致，我们选择在这个时候预览而不是广泛发布这项技术。我们希望这次对Voice Engine的预览不仅突显了它的潜力，也激励了我们加强社会抵御越来越具有说服力的生成模型带来的挑战的需要。具体来说，我们鼓励采取以下措施：