一,AI时代已至
即使在科技领域,Ai也是个全新的物种,研究它有种探索未知世界的恐惧感。
嘿,这是黑猫。随着AI自动驾驶、AI绘画、AI语音、AI大模型等应用的出现,AI开始真切地改变我们的生活,它终究是避不开的。
“AI”到底是什么?许多人会轻飘飘地跟你解释:AI就是人工智能,这个回答正确却无用。
很多人都和我一样,不关心AI的原理,只关心AI的应用。大家都很现实,一个技术如果不能带来真正实用的价值,那只不过是空中楼阁,噱头已经见够多了。
而对普罗大众而言,目前能接触的AI工具,无非就是通义千问、文心一言、kimi、秘塔之类的AI语言大模型。它们可以帮忙写点文字,可以帮忙分析下资料,但无法真正取代工作本身。
因为AI太完美,太理性,太规矩了。人是理性的,但理性仅仅是冰山上浮现的一角。隐藏在底下的,是不可抑制的冲动,是无法掩盖的兽性,而都就是AI所欠缺的。
二,目前最强的AI文字转语音
大家应该都刷到过AI配音的电影解说,这个男人叫小帅,这个女人叫小美。这些视频,无一例外都是由人工智能配音,语音包来源于微软Azure文字转语音。
你知道的,微软的文字转语音,是目前语气最接近真人说话,而且商用价格最低廉的AI应用。如果你是个人用户,且使用频率不高,甚至可以白嫖,之前我也写过一篇教程。
当然,微软的文字转语音不够自然,可选的中文语音库就那么几十个。而且它的发音,接近人类,却过于标准,听多了难免觉得厌倦。
今天,我们就解决这个问题。这篇文章将要全面科普一个开源项目:ChatTTS。
它在GitHub斩获了28.7K Star,是一个现象级的存在,甚至被誉为当下最强的AI文字转语音。
它利用了目前最先进的深度学习算法,在音调、情感表达、多语言识别方面极其出色,可以生成非常逼真的语音。
关键在于,微软Azure的语音模型不仅闭源,而且只能联网使用。而ChatTTS,是一个可以在本地部署的AI大模型。只要在电脑上部署好,硬件满足性能要求,就能永久免费使用。
最重要的是,随着版本更新到0.98,目前ChatTTS生成的语音,已经非常出色。如果我不告诉你,你甚至都不知道这是AI生成的语音。
下面这段语音,是我用自己写的文章,生成的一段语音,效果非常惊艳。它不仅可以精准传达文字,而且咬字节奏还很有个人特色。
这也就意味着,掌握这门技术,只要你想,你可以模拟任何人声。和往常一样,我们不仅会科普技术,还会给到具体的实操方法。
三,ChatTTS本地部署教程
怎么在Windows电脑上部署ChatTTS语音模型?这个东西还是有门槛的。开发者提供的方法,需要调用大量代码,很难大面积普及。
而我们的目标,是让普通人也能掌握最新的科技。
这篇教程,我们提供的是一键部署的安装包,和配套的运行库。一共只需要两步,电脑小白也能轻松上手。
在Windows上部署ChatTTS,只需要两步:1,安装ffmpeg,2,安装ChatTTS。
ChatTTS完全是凭借机能实现的,无需联网。一段30秒的音频生成,需要4GB显存以上的独立显卡才能完成。没独显的话,就只能调用CPU,速度会慢些——但不是不能用。
只要你的电脑不是太老,运行起来是没问题的。需要用到的软件,工具,我都打包好了,获取方式拉到文章底部。
1)安装FFmpeg
说明:FFmpeg是一个开源的多媒体框架,在ChatTTS中主要用来录制、转换和传输音频,部署前毕竟安装它,否则无法运行。
1,下载我准备的最新压缩包,解压到C盘(系统盘)的Program Files文件夹里,地址是“C:\Program Files\ffmpeg”。
2,打开“ffmpeg” -> “bin” ,在文件路径处按下右键,点击复制地址。我的是“C:\Program Files\ffmpeg\bin”,记住一定是“bin”的路径,这个地址很重要,后面要用到。
3,Windows搜索框,直接搜索“环境变量”进入,接着再点点环境变量。
如果是旧系统搜不到,那就右键打开我的电脑,打开“系统属性” -> “高级系统设置” -> “环境变量”。
4,在下半页部分,依次打开“环境变量” -> 系统变量” -> “path”。在编辑环境变量页面里,点击新建,然后把刚才复制的地址,“C:\Program Files\ffmpeg\bin”,复制进去,然后点确定。
5,验证ffmpeg是否安装好(可做可不做),打开Windows系统的命令提示符,输入ffmpeg -version,验证ffmpeg是否安装成功。如果成功,则会看到下面这张图。
好了,到这一步就大功告成了。ffmpeg的安装比较复杂,但是不亏。它同时也是个视频、音频处理神器,功能极其强悍,这里不多介绍。
2)安装ChatTTS
这个版本是ChatTTS 0.98最新版的一键本地部署包,已经全部打包好,解压即可使用。
1,下载ChatTTS压缩包,随便找一个硬盘,解压进去。
2,打开解压好的文件,点击“APP”这个文件,启动ChatTTS。
3,如果ffmpeg已经顺利安装好,则会直接启动命令行,这就是ChatTTS的本体。
4,之后,浏览器会自动弹出ChatTTS的前端页面,界面非常简单,只有核心功能。别看页面简陋,所有涉及文字转语音的设置都在里面,技术至上的产品是这样的。
ChatTTS已经安装好了,使用方法也很简单。为了减少大家摸索的成本,下面做个基础教程。
四,ChatTTS基础教程
1,首先在文本框,输入你要转换成语音的文字。注意标点符号要规范,因为它会基于标点符号,判断应该如何发音。
2, 接下来选一个音色,它预装了几十种音色,你可以直接选择,试听。
3,ChatTTS强大的地方在于,它可以自己自定义“音色”,也就是“音色抽卡”。
我比较常用的是2222,9999。这里在音色值里,输入一个数字,就能定位到我们想要的声音。
4,语速、温度这些参数调一下,点击立即合成。接下来,ChatTTS就会在后台自动处理。显卡越强,则处理速度越快。我用的是4060TI,速度大概是10秒处理30个字左右。
以上就是ChatTTS的基础使用方法,其实ChatTTS今年6月刚出来的时候,我就用了,当时存在音色不稳定、无法批量生成的BUG。
我认为不实用,就没有进行讲解。
而最新的0.98版本更新了内核,我之前遇到的问题,都修复了不少,除了笑声、停顿难调用外,没别的问题。现阶段,基本可以拿来当生产力工具使用。
唯一的遗憾是,因为声音太逼真,开发者为了规避风险略微降低了音质。但这其实不是问题,用剪映后期处理一下就很不错了——用来制作视频,效果接近完美。大家可以对比一下。
如何学习AI大模型?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓