【34.2k star!】Suno开源Bark语音模型，手把手带你实操部署，体验逼真的文字转语音和AI创曲~

最新推荐文章于 2025-04-01 22:53:14 发布

江湖人称麻花滕

最新推荐文章于 2025-04-01 22:53:14 发布

阅读量2.9k

点赞数 23

文章标签：人工智能数据库大数据深度学习算法

本文链接：https://blog.csdn.net/m0_59235699/article/details/142219319

版权

前言

今天给大家分享github社区爆火的开源项目，国外的Suno公司开源Bark模型，没错就是之前给大家分享[Suno AI：人人都是莫扎特! 非常简单，有手就行！实操AI创曲<重庆>,效果惊艳！];不仅能够生成逼真的语音还能产生交流过程中的笑声，叹息声等等，能够通过文本生成音乐是Bark模型的一大亮点。

本文手把手实操部署Bark模型，并提供亮点功能的案例效果展示！下面进入今天的主题~

本文目录

Bark模型介绍
实战部署Bark模型进行推理-效果展示
配置对应python运行环境
加载模型进行推理
将英文文本生成对应的tts效果展示
生成中文文本生成对应的tts效果展示
指定具体的音色-效果展示
通过文本生成对应的歌曲-效果展示
生成超长文本语音效果展示
参考链接

Bark模型介绍

Bark 是由 Suno 创建的一种基于 Transformer 的文本到音频模型。它遵循与 AudioLM 和 Vall-E 类似的 GPT 风格架构，并采用了 EnCodec 的量化音频表示。它不是一个传统的文本到语音（TTS）模型，而是一个完全生成式的文本到音频模型。Bark 能够生成非常逼真的多语言语音以及其他类型的音频，包括音乐、背景噪音和简单的音效。该模型还可以产生非语言交流，如笑声、叹息和哭泣声。在github社区平台，Bark项目点赞量累计达34.2k!在huggingface社区下载量也高达33.8k!

目前开源的模型主要有2个版本:

bark-large: https://hf-mirror.com/suno/bark
bark-small: https://hf-mirror.com/suno/bark-small

Bark模型支持的语言如下:

Bark模型的功能概况：

非常真实自然的语音
英文效果最佳，其他语言还欠佳
支持通过文本生成歌曲
支持生成背景噪音、简单的音效
支持大笑、叹息、哭泣

下面我将手把手带大家利用transformers框架来部署推理Bark模型，来对其亮点功能进行效果案例展示~

实战部署Bark模型进行推理-效果展示

配置对应python运行环境

!pip install transformers==4.42.3   !pip install torch==2.1.2   import torchaudio   import numpy as np   import pandas as pd   import transformers   import accelerate   import torchvision   print("torchvision: ", torchvision.__version__) # torchvision:  0.16.2   print("accelerate: ", accelerate.__version__) # accelerate:  0.32.1   print("torch: ", torch.__version__) # torch:  2.1.2   print("torchaudio: ", torchaudio.__version__) # torchaudio:  2.1.2   print("numpy: ", np.__version__) # numpy:  1.25.1   print("transformers: ", transformers.__version__) # transformers:  4.42.3

加载模型进行推理

from transformers import AutoProcessor, AutoModel   processor = AutoProcessor.from_pretrained("suno/bark")   model = AutoModel.from_pretrained("suno/bark",  torch_dtype=torch.float16,).eval().cuda()

将英文文本生成对应的tts效果展示

from IPython.display import Audio   inputs = processor(       text=["Hello, my name is Suno. And, uh — and I like pizza. [laughs] But I also have other interests such as playing tic tac toe."],       return_tensors="pt",          ).to("cuda")   speech_values = model.generate(**inputs, do_sample=True)   sampling_rate = model.generation_config.sample_rate   print("sampling_rate:", sampling_rate)   Audio(speech_values.cpu().numpy().squeeze(), rate=sampling_rate)

输出的效果展示:

可以看出生成的英文效果非常的自然流畅。下面我将给大家测试一下生成中文的效果~

生成中文文本生成对应的tts效果展示

%%time    inputs = processor(       text=["[laughs] 这个故事太好笑了."],       return_tensors="pt",       voice_preset="v2/zh_speaker_9",       max_length=2048,   ).to("cuda")   speech_values = model.generate(**inputs, do_sample=True)   sampling_rate = model.generation_config.sample_rate   print("sampling_rate:", sampling_rate)   Audio(speech_values.cpu().numpy().squeeze(), rate=sampling_rate)

输出的效果展示:

指定具体的音色-效果展示

在bark模型中，通过设置voice_preset字段的值来指定具体的音色。“{语言}_spearker_{n}”、“v2/{语言}_spearker_{n}” ;其中语言为上面支持的语言，n的取值范围是0-9；例如下面我指定中文语言说话人2的音色如下；

%%time   
inputs = processor(  
    text=["听到你这么开心我也很高兴呢，发生什么好事啦？"],  
    return_tensors="pt",  
    max_length=2048,  
    voice_preset="zh_speaker_2",  
).to("cuda")  
speech_values = model.generate(**inputs, do_sample=True)  
sampling_rate = model.generation_config.sample_rate  
print("sampling_rate:", sampling_rate)  
Audio(speech_values.cpu().numpy().squeeze(), rate=sampling_rate)

输出的效果展示:

通过文本生成对应的歌曲-效果展示

在通过文本生成歌曲，通常需要以"♪"开始和结尾，中间为对应的待生成歌曲的内容~。下面我以"可能"的歌词的前几句来让bark模型帮我生成音乐。

%%time    text_prompt = """       ♪ 可能南方的阳光  照着北方的风   可能时光被吹走  从此无影无踪   可能故事只剩下  一个难忘的人♪   """   inputs = processor(       text=[text_prompt],       return_tensors="pt",       max_length=2048,   ).to("cuda")   speech_values = model.generate(**inputs, do_sample=True)   sampling_rate = model.generation_config.sample_rate   print("sampling_rate:", sampling_rate)   Audio(speech_values.cpu().numpy().squeeze(), rate=sampling_rate)

输出的效果展示:

可以看出生成的歌曲有对应的旋律，整体效果看还是一般，没得天工AI音乐的效果好。但是Bark是开源的，估计是对中文这块支撑不足~

生成超长文本语音效果展示

bark模型单次只能生成14秒的音频文件，当遇到长文本的内容时，需要手动进行拆分推理最后合并到一起。下面是测试效果

%%time    inputs = processor(       text="""人生没有白走的路，年少不经事，懂事已中年。   在无知的年龄做了选择，在懂事的年纪承担后果。   拿最好的青春换最深刻的教训，哭着成长，笑着生活，这便是人生。   不管我们过得好不好，开心还是难过我们所承受的一切。   都是在为以前自己的选择而买单人生没有白走的路，每一步都算数。   人生是一趟单程车，一路向前永不回头。   每一天都是崭新的一天，不要抱怨也不要后悔。   努力走好当下的路，就是对自己人生最大的尊重。""".split("。"),       return_tensors="pt",       max_length=2048,       voice_preset="v2/zh_speaker_1",   ).to("cuda")   speech_values = model.generate(**inputs, do_sample=True)   sampling_rate = model.generation_config.sample_rate   print("sampling_rate:", sampling_rate)

输出的效果展示:

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述