人工智能现在可以从文本中生成具有CD音质的音乐,而且只会越来越好

现在说,否则永远停止你的节拍
想象一下,键入“戏剧性的介绍音乐”并听到一首飙升的交响乐,或者编写“令人毛骨悚然的脚步声”并获得高质量的音效。这是稳定音频的承诺,一个文本到音频的人工智能模型周三宣布由能合成立体声的稳定人工智能44.1千赫来自文字描述的音乐或声音。不久,类似的技术可能会挑战音乐家的工作。

如果你还记得的话,Stability AI是帮助投资创建稳定扩散,2022年8月发布的潜在扩散图像合成模型。该公司不满足于制作图像,还通过后台支持将业务扩展到了音频领域哈蒙奈,一个推出音乐生成器的人工智能实验室舞蹈扩散九月。

现在Stability和Harmonai想用稳定音频打入商业ai音频制作。由…判断生产样品,这似乎是一个重大的音频质量升级,从以前的人工智能音频发生器,我们已经看到了。

在其宣传页面上,Stability提供了人工智能模型的例子,并提供了“史诗预告片音乐,强烈的部落打击乐器和铜管乐器”和“lofi hip hop beat melody chill hop 85 BPM”等提示。它还提供了使用稳定音频生成的声音效果样本,如航空公司飞行员通过对讲机讲话和人们在繁忙的餐馆中交谈。

为了训练它的模型,稳定性与股票音乐提供商合作AudioSparx并授权了一个数据集“由超过800,000个音频文件组成,包含音乐、声音效果和单乐器词干,以及相应的文本元数据。”在将19,500小时的音频输入模型后,Stable Audio知道如何模仿它在命令下听到的某些声音,因为这些声音在其神经网络中与它们的文本描述相关联。

由Stability AI提供的稳定音频架构的框图
稳定音频包含几个部分,它们协同工作以快速创建自定音频。一部分以保留重要特征的方式缩小音频文件,同时去除不必要的噪音。这使得系统既能更快地进行教学,又能更快地创建新的音频。另一部分使用文本(音乐和声音的元数据描述)来帮助指导生成哪种音频。

为了加快速度,稳定音频架构对高度简化的压缩音频表示进行操作,以减少推理时间(机器学习模型在获得输入后生成输出所需的时间)。根据Stability AI的说法,Stable Audio可以以44.1 kHz的采样率渲染95秒的16位立体声音频(通常称为“CD质量因为它符合CD格式的技术规格)Nvidia A100 GPU。A100是为人工智能使用而设计的强大的数据中心GPU,它比典型的桌面游戏GPU更有能力。

虽然生成的音频在位深度和采样速率方面可能符合CD规范,但值得注意的是,稳定音频产生的音乐的实际感知质量可能会有很大差异,尤其是因为音频是从数据集中的压缩表示中生成的。

如上所述,稳定的音频并不是第一个基于潜在扩散技术的音乐发生器。去年12月,我们报道了重复融合一个业余爱好者对稳定扩散的音频版本感兴趣,尽管其产生的几代产品在质量上远远达不到稳定音频的样本。今年1月,谷歌发布了MusicLM,这是一个24 kHz音频的人工智能音乐生成器,Meta推出了一套开源音频工具(包括一个文本到音乐生成器),名为音频工艺八月。现在,随着44.1千赫立体声音频,稳定的扩散正在增加赌注。

稳定性说,稳定的音频将可在一个免费层和12美元每月专业计划。通过免费选项,用户每月可以生成多达20首曲目,每首曲目最长20秒。Pro计划扩展了这些限制,允许每月生成500首曲目,曲目长度可达90秒。未来的稳定版本预计将包括基于稳定音频架构的开源模型,以及为那些对开发音频生成模型感兴趣的人提供的培训代码。

就目前情况而言,考虑到音频保真度,我们可能处于生产质量的人工智能生成的稳定音频音乐的边缘。音乐人被AI模特取代会开心吗?不太可能,如果历史告诉我们艾在视觉艺术领域的抗议。目前,人类可以轻松超越人工智能可以产生的任何东西,但这种情况可能不会持续太久。无论如何,人工智能生成的音频可能会成为专业人员音频制作工具箱中的另一个工具。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: c 文本转语音是一种将文本信息转换为语音信息的技术。它使用了语音合成技术,将文本的文字信息转换为计算机生成的音频文件。其,MP3是一种常见的音频文件格式,具有较好的音质和较小的文件大小。 具体实现c 文本转语音生成MP3的过程如下: 首先,需要准备一个文本输入,可以是从文本文件、电子邮件、网页等来源获取的文本信息; 然后,使用语音合成软件或开发工具,将文本信息转换为语音信息。这些工具通常会采用自然语言处理、机器学习、深度学习等技术,完成对文本的语义理解和声音模拟; 接着,将生成的音频信息保存为MP3格式的文件。这一过程可以通过指定输出文件格式为MP3,或者再对语音数据进行压缩和编码得到MP3文件; 最后,保存的MP3文件就是生成的语音结果,可以通过播放器或应用程序进行播放和使用。 c 文本转语音生成MP3具有广泛的应用场景。例如,在信息化时代,许多平台和设备需要将文本信息转化为语音进行传递,帮助用户更方便地获取信息和与计算机进行交互。比如,手机语音助手、智能音箱、语音导航等。此外,在教育领域或娱乐领域,c 文本转语音也可以辅助教学,为有特殊需求的用户提供有声阅读等服务。 总而言之,c 文本转语音生成MP3是一项便利而重要的技术,可以广泛应用于各个领域。通过将文本信息转换为语音信息,可以满足用户对于语音交互的需求,并提供更加智能便捷的体验。 ### 回答2: C 文本转语音生成 MP3 的过程可分为以下步骤: 1. 文本输入:用户将待转换的文字输入到程序,例如使用文本编辑器或自定义的界面。 2. 文本处理:程序对输入的文字进行处理,包括分词、标点符号的处理、语法分析等,以确保生成的语音有良好的流畅性和准确性。 3. 语音合成:程序将处理后的文字转换为语音信号。这一步通常依赖于语音合成技术,使用 TTS(Text-to-Speech)算法将文字转换为能够模拟人类语音发音的语音信号。 4. 声音效果处理:对生成的语音信号进行声音效果的处理,例如音量、语速、音调和语感等的调整,以使生成的语音更加自然和易于理解。 5. 格式转换:将生成的语音信号转换为 MP3 格式,以便于在各种设备上播放和传输。这一步需要使用音频编码技术将音频信号编码为 MP3 格式,以减小文件大小并保持声音质量。 6. 保存输出:将生成的 MP3 文件保存到指定的位置,用户可以选择保存文件的路径和文件名。 7. 完成:生成的 MP3 文件将可以在各种设备上播放和分享,能够满足用户对文本转语音的需求。 总之,通过以上步骤,可以将用户输入的文本经过语音合成和音频编码处理,最终生成 MP3 格式的语音文件。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大雾的小屋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值