前言
这几天在研究大模型,也算是把自己本地算力资源压榨到极限了。
目前已经接近收尾工作,写篇感想总结一下!
任务目标和开源项目寻找
根据要实现的任务,包括实时语音识别、中英文翻译、类似chatgpt的生成式对话本地部署(可接受量化)、语音克隆生成(要求声音质量尽量好)
-
实时语音识别
之前做过语音识别,使用的是openAi开源的whisper,但是whisper包括fast-whisper都达不到实时,并且占用资源较高,所以在我这边直接pass。
这边先是选用了Vosk,因为考虑到是java的开源ASR项目,但是部署了之后发现准确率不高,实时性比较差,所以放弃了。
但是Vosk这类技术路线确实可行,主要是Vosk没有名气,于是向上寻找。
Vosk是一个开源的语音识别工具,它基于Kaldi语音识别框架,于是我直接找一下基于Kaldi的其他开项目,让我找到了一个源自小米实验室的开源项目sherpa_ncnn
效果不错,能满足占用资源低,实时性高,识别准确率尚可 -
中英文翻译
一开始是爬取百度的api进行的,后来使用了hungingface上的opus-mt-en-zh,感觉还可以。
但是如果工程上要用需要入参的数据清洗 -
生成式对话大模型
这边直接选用了chatglm2-6b的int4量化版,主要是chatglm3刚出来感觉还有优化的空间,而且chatglm2-6b-int4量化版能支持6g就能跑的硬性硬件指标(3060ti 8g哭了)。
结果还不错,运行时大概额定占显存6~7G,回答问题时,显卡会啸叫,不过也只是几秒。
等到之后再去云上微调吧 -
语音克隆生成
这个之前本来看好vits,后面看到so-vits-svc效果不错。
今年有一个B站视频惊艳到我,就是那个AI峰哥
已经后续的项目,bert-vits1,bert-vits2
我本地部署的是bert-vits2-2.3版本,支持中日英三语生成,训练时不需要日英语料,可以直接使用中文语料,然后通过日英的底模,让模型发出英文和日文。
还不存,运行时额定占显存3~4G,训练显存占用不高7 ~ 7.5G刚刚好
我训练了4万步,效果已经不错了,但是还是需要优化数据集,才能提高模型质量。
5.或许整个chatgpt3.5和4.0的代理平台是个好主意?狠狠的薅chatgpt的羊毛