个人开发者对于大模型的感想

前言

这几天在研究大模型,也算是把自己本地算力资源压榨到极限了。
目前已经接近收尾工作,写篇感想总结一下!

任务目标和开源项目寻找

根据要实现的任务,包括实时语音识别、中英文翻译、类似chatgpt的生成式对话本地部署(可接受量化)、语音克隆生成(要求声音质量尽量好)

  1. 实时语音识别
    之前做过语音识别,使用的是openAi开源的whisper,但是whisper包括fast-whisper都达不到实时,并且占用资源较高,所以在我这边直接pass。
    这边先是选用了Vosk,因为考虑到是java的开源ASR项目,但是部署了之后发现准确率不高,实时性比较差,所以放弃了。
    但是Vosk这类技术路线确实可行,主要是Vosk没有名气,于是向上寻找。
    Vosk是一个开源的语音识别工具,它基于Kaldi语音识别框架,于是我直接找一下基于Kaldi的其他开项目,让我找到了一个源自小米实验室的开源项目sherpa_ncnn
    效果不错,能满足占用资源低,实时性高,识别准确率尚可

  2. 中英文翻译
    一开始是爬取百度的api进行的,后来使用了hungingface上的opus-mt-en-zh,感觉还可以。
    但是如果工程上要用需要入参的数据清洗

  3. 生成式对话大模型
    这边直接选用了chatglm2-6b的int4量化版,主要是chatglm3刚出来感觉还有优化的空间,而且chatglm2-6b-int4量化版能支持6g就能跑的硬性硬件指标(3060ti 8g哭了)。
    结果还不错,运行时大概额定占显存6~7G,回答问题时,显卡会啸叫,不过也只是几秒。
    等到之后再去云上微调吧

  4. 语音克隆生成
    这个之前本来看好vits,后面看到so-vits-svc效果不错。
    今年有一个B站视频惊艳到我,就是那个AI峰哥
    已经后续的项目,bert-vits1,bert-vits2
    我本地部署的是bert-vits2-2.3版本,支持中日英三语生成,训练时不需要日英语料,可以直接使用中文语料,然后通过日英的底模,让模型发出英文和日文。
    还不存,运行时额定占显存3~4G,训练显存占用不高7 ~ 7.5G刚刚好
    我训练了4万步,效果已经不错了,但是还是需要优化数据集,才能提高模型质量。

5.或许整个chatgpt3.5和4.0的代理平台是个好主意?狠狠的薅chatgpt的羊毛

  • 8
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值