ChatTTS：一款专为对话场景设计的文本转语音开源大模型

最新推荐文章于 2024-06-05 05:00:00 发布

机器学习社区

最新推荐文章于 2024-06-05 05:00:00 发布

阅读量1.2k

点赞数 26

分类专栏：大模型深度学习文章标签： transformer 深度学习人工智能大模型 TTS 文本转语言

本文链接：https://blog.csdn.net/m0_59596990/article/details/139381636

版权

大模型同时被 2 个专栏收录

183 篇文章 97 订阅

订阅专栏

深度学习

65 篇文章 2 订阅

订阅专栏

节前，我们组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。

针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。

汇总合集：

《AIGC 面试宝典》(2024版) 发布！

《大模型面试宝典》(2024版) 发布！

最近，开源社区杀出一匹文本转语音领域的黑马——ChatTTS，在Github上仅4天斩获11.2k star。

https://github.com/2noise/ChatTTS

ChatTTS 是一个专门为对话场景设计的文本转语音模型，例如众所周知的GPT-4o这样的LLM助手对话任务。ChatTTS支持英文和中文两种语言，最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且未SFT的版本。

模型亮点：

对话式 TTS: ChatTTS针对对话式任务进行了优化，实现了自然流畅的语音合成，同时支持多说话人。
细粒度控制: 该模型能够预测和控制细粒度的韵律特征，包括笑声、停顿和插入词等。
更好的韵律: ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型，支持进一步的研究。

模型下载

#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('pzc163/chatTTS')

模型推理

# pip install -r requirement.txt
# pip install Ipython
# pip install soundfile
from ChatTTS import Chat
from IPython.display import Audio
#下载模型
from modelscope import snapshot_download

model_dir = snapshot_download('pzc163/chatTTS')

chat = Chat()
chat.load_models(source='local', local_path=model_dir)

texts = ["你好,我是ChatTTS,很高兴认识大家",]

wavs = chat.infer(texts, use_decoder=True)
Audio(wavs[0], rate=24_000, autoplay=True)

# save audio
import soundfile as sf
audio_data = wavs[0]
if len(audio_data.shape) > 1:  
    audio_data = audio_data.flatten()

output_file = './output_audio2.wav'
sf.write(output_file, audio_data, 24000)
print(f"Audio saved to {output_file}")

搭建Web-UI体验

同时也可以使用如下命令👇，将该创空间clone下来，运行如下代码，就可以拥有自己专属的ChatTTS WebUI啦！

git clone https://www.modelscope.cn/studios/AI-ModelScope/ChatTTS-demo.git
cd ChatTTS
pip install -r requirements.txt
python app.py

技术交流

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

我们建了算法岗面试与技术交流群，想要进交流群、需要源码&资料、提升技术的同学，可以直接加微信号：mlc2040。加的时候备注一下：研究方向 +学校/公司+CSDN，即可。然后就可以拉你进群了。

方式①、微信搜索公众号：机器学习社区，后台回复：技术交流
方式②、添加微信号：mlc2040，备注：技术交流+CSDN

用通俗易懂的方式讲解系列

机器学习社区

关注

26
点赞
踩
24

收藏

觉得还不错? 一键收藏
1
评论
ChatTTS：一款专为对话场景设计的文本转语音开源大模型

节前，我们组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。最近，开源社区杀出一匹文本转语音领域的黑马——ChatTTS，在Github上仅4天斩获11.2k star。ChatTTS 是一个专门为对话场景设计的文本转语音模型，例如众所周知的GPT-4o这样的LLM助手对话任务。
复制链接

扫一扫