开源免费 AI 朗读中文,居然也能以假乱真了?

脚扑朔,眼迷离,傍地走……

3925150fd833b88f7100dcc0e3b0210b.jpeg

这几天,有个 文本转语音的 Github repo 刷屏了,名字叫做 ChatTTS。

!222b5c3837e43b3f4136de5722af2e54.jpeg

它有多火呢?这是它 Github 星星(相当于点赞数量)增长的趋势。

3d397492bf16ebad59f8613cb6736475.jpeg

3天,就3天,星星数量从零到超过1万。实话实说,除了 AutoGPT,我真没有见过这么恐怖的 Stars 涨势。

其实文本转语音(Text to Speech, TTS)技术本身根本谈不上稀奇。不管你用的是 Siri 还是小爱同学,都应该听过 AI 合成语音。至于 GPT-4o 那种不讲武德的低延迟「拟人」打法,就更厉害了。

文本生成声音这领域,已有不少巨头参与,大家也见识过 AI 在音色、语气、节奏上的惟妙惟肖,为何还会对一个个体开发者做的 TTS 新应用如此惊喜?

原因在于,这款应用,可以算作目前中文文本生成语音领域的开源顶流了。

我先给你展现一下效果吧。下面是我公众号上的一段文字。

824be31b41b1bef4c3b14ac557316efe.jpeg

这是 ChatTTS 朗读的结果,请点击这个链接查看。


你觉得效果怎么样?

更有意思的是,你不需要为了使用这款应用付任何的 AI 订阅费。只要你有个主流配置的电脑,就能用。甚至你 也可以租个 GPU 来玩儿。

45b96742824c52b6aaa1f07e91331646.jpeg

不过要使用 ChatTTS 官方的项目来生成音频,你运行的时候得用到 Python。我的一个朋友跟我说我他不懂编程,就连 Python 也不想学,那怎么办呢?

我说帮你找找看更简便的途径吧,果然我找到了一个基于官方项目打包的应用,叫做 ChatTTS-fork,用起来更加方便。

7d5b495fc0519acb31886e98a1fcd7e4.jpeg

下面咱们来说说使用方法。其实就两步。

第一步,运行下面的指令,把 ChatTTS-fork 软件包装上;

pip install -U chattts-fork

第二步,进入终端。macOS 请进入 Terminal,Windows 打开「命令行」。运行下面的命令:

chattts ' 许多学科的研究工作范式早已是数据驱动。在过去的几年时间里,我给你介绍过不少获取数据的 方法。开放数据获取和 API 数据读取更为简单一些,相对而言爬虫就有些复杂。所以我详细介绍使用编程从头做爬虫的 教程并不多,而更希望给你介绍一些更为简便的方式,例如这篇。' --seed 2222

解读一下,其中的 chattts 是执行的命令,后面一整段的字符串代表着你让 ChatTTS 读的内容。再之后指定一个随机种子值,ChatTTS 按照随机种子指定的音色来发声。

对,就这么简单。生成的文件,叫做 tts.wav。你也可以在刚才的命令后面加上 -o output.wav 来指定自定义输出音频文件名称。

下面咱们来听一听不同的随机种子之下,ChatTTS 对同样的文本读出来的声音分别是什么样子。

这是 seed 编号 1997 的,链接在这里;


这是 seed 编号 1983 的,链接在这里。


你喜欢哪个?实话实说,我更喜欢编号 1997 的这个。语气特别自然,听起来更加可信。

前面咱们输入的只是文本,其实 ChatTTS 厉害的地方在于,你可以非常容易控制 AI 朗读的情绪。例如下面我给你演示加上「笑」([laugh]) 这个控制符,你听听看。这是命令:

chattts "昨天哪 [laugh] 哈哈 [laugh] 我听王树义老师在课上讲了个笑话 [laugh][uv_break] 哎呀妈呀 ,太可乐了 [laugh],哈哈哈 [laugh]" --seed 1983

生成的结果,在这里。


如果你尝试了很多不同的 seed ,会发现有些生成音频里,有特别高频刺耳的噪声。一开始我以为这是当时清洗语料的时候没做好,后来才发现,是 ChatTTS 的作者需要免责

763c834701237a948ef67a043f689d58.jpeg

作者知道造出来这么样的一个开源应用后,可能会带来什么。没错 —— 某些不法活动的门槛,进一步降低了。如果任由所有人使用纯净原声,那么可能会有更多的受害者上当受骗,后果不堪设想啊。

这个模型训练时长全集超过 10 万小时,而目前开放出来的版本只是一个 4 万小时训练的结果,还加上了噪声。将来它真正商业化的版本,会带来什么?

0236648b53dbe45e0435f6637ad94f35.jpeg

我这几天跟朋友们分享生成音频效果时,他们反复提到一个关键词 —— 声优。而另一部分人则干脆宣布,只要这工具成熟了,自己会立即取消某常用音频平台的订阅。你说,「声优」这份职业和这个好不容易发展起来的音频平台,招谁惹谁了?

AI 距离人们的期许,还有很长的路要走,甚至我们中没有人知道这个目标是否一定能在近年内达到。但即便在目前 AIGC 发展初级阶段,很多 AI 应用都已经在真真实实影响我们的生活。不是吗?

希望今天的介绍,让你了解目前中文开源 TTS 应用的进步。有了这款应用,你是否打算尝试一下?又准备用它做些什么呢?欢迎你把自己的应用场景和使用感受写在留言区,咱们一起交流讨论。

点赞 +「在看」,转发给你身边有需要的朋友。收不到推送?那是因为你只订阅,却没有加星标

请注意,2024年7月开始,小报童和知识星球订阅费用将会调整。小报童年度订阅费将从140元调整到199元,季度订阅从45元调整到59元。知识星球年度订阅费将从199元调整到249元。如果你想要入手,抓紧下单吧。

欢迎订阅我的小报童付费专栏,每月更新不少于3篇文章。订阅一整年价格优惠。

b1fe8f7985b2447d4bf8ac70dd570307.jpeg

如果有问题咨询,或者希望加入社群和热爱钻研的小伙伴们一起讨论,订阅知识星球吧。不仅包括小报童的推送内容,还可以自由发帖与提问。之前已经积累下的帖子和问答,就有数百篇。足够你好好翻一阵子。知识星球支持72小时内无条件退款,所以你可以放心尝试。

2c495b0a1f0eb7be9f80a1f2efeebfbc.jpeg

若文中部分链接可能无法正常显示与跳转,可能是因为微信公众平台的外链限制。如需访问,请点击文末「阅读原文」链接,查看链接齐备的版本。 


延伸阅读

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值