搭建你自己的语音识别文字服务【faster-whisper】

TOo斌斌很有礼oOT

已于 2024-07-23 15:31:41 修改

阅读量722

点赞数 11

分类专栏： AIGC python 文章标签：语音识别 whisper 人工智能

于 2024-07-23 15:09:38 首次发布

本文链接：https://blog.csdn.net/ltbweber/article/details/140636036

版权

python 同时被 2 个专栏收录

14 篇文章

订阅专栏

AIGC

12 篇文章

订阅专栏

背景

近期，在做音视频合成的项目，但是呢，没有好用的自动字幕和自动歌词的工具，三方的呢又比较贵，那怎么办呢？一向懒惰的我，最终屈服在了价格上，自己动手吧，自己动手，丰衣足食【faster-whisper】

开搞

1：环境

python3.10

2：安装依赖：【github地址：https://github.com/SYSTRAN/faster-whisper】

pip install faster-whisper

3：编写python代码

from faster_whisper import WhisperModel
 
voice_path = 'lvlv.wav' #你得音频地址
model_size = "large-v3" #这是个模型名称，一般用这个就行，其余还有，可以查看github上介绍，执行的时候，会自动下载模型文件，好几个G，比较大
#我测试机器上是用这个CPU跑的，GPU比较垃圾，不支持int8_float16混合算法
model = WhisperModel(model_size, device="cpu", compute_type="int8") 
# 或者在GPU上用INT8跑
# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")
# 或者在CPU上用INT8跑
# model = WhisperModel(model_size, device="cpu", compute_type="int8")
segments, info = model.transcribe(voice_path, beam_size=5)
print("Detected language '%s' with probability %f" % (info.language, info.language_probability))
for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text)) #这里循环输出识别出来的内容，并带有时间戳