Faster-Whisper 实时识别电脑语音转文本

Daniel的万事通杂货铺

于 2024-07-22 22:50:25 发布

阅读量136

点赞数

分类专栏：人工智能文章标签： whisper

原文链接：https://blog.csdn.net/a71468293a/article/details/135995878?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522172165945216800172536963%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=172165945216800172536963&biz_id=0&spm=101

版权

人工智能专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Faster-Whisper 实时识别电脑语音转文本

前言
项目
参考
前言

以前做的智能对话软件接的Baidu API，想换成本地的，就搭一套Faster-Whisper吧。
下面是B站视频实时转写的截图
参考
项目
搭建环境
所需要的CUDANN已经装好了，如果装的是12.2应该是包含cuBLAS了
没装的，可以从下面链接下载装一下，文末的参考视频中也有讲解
https://github.com/Purfview/whisper-standalone-win/releases/tag/libs
Ancanda的运行环境去Clone一下之前配好的环境，用之前BertVits的即可

安装Faster-Whisper
输入即可安装

pip install faster-whisper

下载模型
https://huggingface.co/Systran/faster-whisper-large-v3
下载完放到代码旁边就可以了
————————————————
编写测试代码

# local_files_only=True 表示加载本地模型
# model_size_or_path=path 指定加载模型路径
# device="cuda" 指定使用cuda
# compute_type="int8_float16" 量化为8位
# language="zh" 指定音频语言
# vad_filter=True 开启vad
# vad_parameters=dict(min_silence_duration_ms=1000) 设置vad参数
from faster_whisper import WhisperModel

model_size = "large-v3"
path = r"D:\Project\Python_Project\FasterWhisper\large-v3"

# Run on GPU with FP16
model = WhisperModel(model_size_or_path=path, device="cuda", local_files_only=True)
 
# or run on GPU with INT8
# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")
# or run on CPU with INT8
# model = WhisperModel(model_size, device="cpu", compute_type="int8")

segments, info = model.transcribe("audio.wav", beam_size=5, language="zh", vad_filter=True, vad_parameters=dict(min_silence_duration_ms=1000))

print("Detected language '%s' with probability %f" % (info.language, info.language_probability))

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

运行测试代码

找个音频放入文件夹内，输入python main.py即可运行！
可以看到正确（不太正确）的识别出了音频说了什么。

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/a71468293a/article/details/135995878

Daniel的万事通杂货铺

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Faster-Whisper 实时识别电脑语音转文本

以前做的智能对话软件接的Baidu API，想换成本地的，就搭一套Faster-Whisper吧。下面是B站视频实时转写的截图参考项目搭建环境所需要的CUDANN已经装好了，如果装的是12.2应该是包含cuBLAS了没装的，可以从下面链接下载装一下，文末的参考视频中也有讲解Ancanda的运行环境去Clone一下之前配好的环境，用之前BertVits的即可安装Faster-Whisper输入即可安装下载模型下载完放到代码旁边就可以了。
复制链接

扫一扫