个人开发者对于大模型的感想

佩洛君

已于 2024-01-15 10:11:36 修改

阅读量1k

点赞数 9

分类专栏：软硬件编程实战经验文章标签： chatgpt bert 语音识别音视频语言模型

于 2023-12-28 11:14:33 首次发布

本文链接：https://blog.csdn.net/qq_40248814/article/details/135263757

版权

软硬件编程实战经验专栏收录该内容

10 篇文章

订阅专栏

作者分享了在本地部署大模型过程中的经历，包括尝试不同的语音识别技术如Vosk和Sherpa_ncnn，以及中英文翻译和生成式对话模型如ChatGLM和BERT-VITS。重点讨论了资源占用和性能优化的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

这几天在研究大模型，也算是把自己本地算力资源压榨到极限了。
目前已经接近收尾工作，写篇感想总结一下！

任务目标和开源项目寻找

根据要实现的任务，包括实时语音识别、中英文翻译、类似chatgpt的生成式对话本地部署（可接受量化）、语音克隆生成（要求声音质量尽量好）

实时语音识别
之前做过语音识别，使用的是openAi开源的whisper，但是whisper包括fast-whisper都达不到实时，并且占用资源较高，所以在我这边直接pass。
这边先是选用了Vosk，因为考虑到是java的开源ASR项目，但是部署了之后发现准确率不高，实时性比较差，所以放弃了。
但是Vosk这类技术路线确实可行，主要是Vosk没有名气，于是向上寻找。
Vosk是一个开源的语音识别工具，它基于Kaldi语音识别框架，于是我直接找一下基于Kaldi的其他开项目，让我找到了一个源自小米实验室的开源项目sherpa_ncnn
效果不错，能满足占用资源低，实时性高，识别准确率尚可
中英文翻译
一开始是爬取百度的api进行的，后来使用了hungingface上的opus-mt-en-zh，感觉还可以。
但是如果工程上要用需要入参的数据清洗
生成式对话大模型
这边直接选用了chatglm2-6b的int4量化版，主要是chatglm3刚出来感觉还有优化的空间，而且chatglm2-6b-int4量化版能支持6g就能跑的硬性硬件指标（3060ti 8g哭了）。
结果还不错，运行时大概额定占显存6~7G，回答问题时，显卡会啸叫，不过也只是几秒。
等到之后再去云上微调吧
语音克隆生成
这个之前本来看好vits，后面看到so-vits-svc效果不错。
今年有一个B站视频惊艳到我，就是那个AI峰哥
已经后续的项目，bert-vits1，bert-vits2
我本地部署的是bert-vits2-2.3版本，支持中日英三语生成，训练时不需要日英语料，可以直接使用中文语料，然后通过日英的底模，让模型发出英文和日文。
还不存，运行时额定占显存3~4G，训练显存占用不高7 ~ 7.5G刚刚好
我训练了4万步，效果已经不错了，但是还是需要优化数据集，才能提高模型质量。