whisper使用方法

最新推荐文章于 2025-01-29 14:41:09 发布

超级小龙虾

最新推荐文章于 2025-01-29 14:41:09 发布

阅读量930

点赞数

文章标签： whisper python

本文链接：https://blog.csdn.net/qq_41638872/article/details/134519745

版权

在这里插入图片描述

看这个 github

https://github.com/Purfview/whisper-standalone-win/tags

下载

视频提取音频
ffmpeg -i 222.mp4 -vn -b:a 128k -c:a mp3 output.mp3

截取4秒后的音频 
ffmpeg -i output.mp3 -ss 4 -c copy output2.mp3

使用 whisper-faster.exe  生成字幕 

whisper-faster.exe C:\Users\pc\Videos\Captures\output3.mp3 -l=Chinese --model=medium --output_format srt

缺少插件解决方法

cudnn_ops_infer64_8.dll 
cublasLt64_11.dll
cublasLt64_12.dll
下载这个
cuBLAS.and.cuDNN_win_v3.zip

完整目录形式
在这里插入图片描述

生成srt

1
00:00:00,920 --> 00:00:02,000
其實這兩年

2
00:00:02,680 --> 00:00:03,680
在電影方面

3
00:00:03,680 --> 00:00:06,360
其實都是想嘗試一些

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

超级小龙虾

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

使用 Whisper 进行语音搜索的完整指南

大模型应用工坊

04-13

679

本指南的主要目的是帮助开发者和技术爱好者全面了解如何使用 Whisper 进行语音搜索。范围涵盖了从 Whisper 的基本概念、核心算法原理到实际项目开发和应用的各个方面。通过本指南，读者将能够掌握使用 Whisper 实现语音搜索功能的完整流程，包括环境搭建、代码实现、调试和优化等。核心概念与联系：介绍 Whisper 的基本概念、工作原理和架构。核心算法原理 & 具体操作步骤：详细讲解 Whisper 所使用的核心算法，并给出具体的操作步骤和 Python 代码示例。

openai 开源模型Whisper语音转文本模型下载使用

洛阳泰山的博客

05-11

3792

Whisper 是一种通用语音识别模型。它是在大量不同音频数据集上进行训练的，也是一个多任务模型，可以执行多语言语音识别、语音翻译和语言识别。官方地址。

参与评论您还未登录，请先登录后发表或查看评论

【实践】基于SakuraLLM的离线日文漫画及视频汉化

kiranet的专栏

01-29

2537

大型语言模型（英语：large language model，LLM），也称大语言模型，是由具有大量参数（通常数十亿个权重或更多）的人工神经网络组成的一类语言模型。在进行语言理解与分析（如文本分类、信息抽取）后，可以赋能用于语言生成（含文本创作、对话、机器翻译）、知识问答与推理等工作。

whisper、whisper.cpp、faster-whisper的比较

KQe397773106的博客

03-28

8945

让我们比较一下当前的whisper、whisper.cpp和faster-whisper。OpenAI / Whisper 自发布以来，似乎在各个方面都发生了变化，例如在 2022 年 12 月增加了 large-v2 模型和各种版本升级。whisper.cpp是用 CPU 的 C/C++ 编写的。它似乎是Core ML支持，所以它对于Mac用户有强烈的感觉。

【小沐学AI】Python实现语音识别（faster-whisper）

爱看书的小沐

06-29

6538

Faster-Whisper是Whisper开源后的第三方进化版本，它对原始的 Whisper 模型结构进行了改进和优化。faster-whisper 是使用 CTranslate2 重新实现 OpenAI 的 Whisper 模型，CTranslate2 是 Transformer 模型的快速推理引擎。此实现比 openai/whisper 快 4 倍，同时使用更少的内存实现相同的准确性。通过对 CPU 和 GPU 进行 8 位量化，可以进一步提高效率。

开源语音识别faster-whisper部署教程

热门推荐

Luke Ewin的博客

12-17

1万+

开源语音识别项目faster-whisper的部署详细过程，本篇文章简洁明了阐述了faster-whisper的部署过程。

faster-whisper-webui

Luke Ewin的博客

06-11

1万+

whisper、whisper.cpp、faster-whisper的比较_faster-whisper比whisper优点

月流霜的专栏

08-25

1306

whisper之初步使用记录

龙井茶的Sky

05-10

2403

随着AI大模型的不断发展，语音识别等周边内容也再次引发关注，通过语音转文字再与大模型交互，从而实现语音与大模型交互。今天我们介绍下语音识别领域的顶级选手whisper。一、whisper是什么？whisper是openai开源的语音识别模型，也是使用了Transformer架构。openai宣称whisper的语音识别能力已经到了人类的水平。接下来我们参考Github结合其他技术博客内容，实操下whisper的使用。本篇主要介绍了whisper的安装、调用、识别效果评估以及一点调用封装。

whisper-一个使用python快速实现合成语音的库，离线人工智能合成，无需联网

01-02

通过以上内容，我们了解了whisper库的基本特性和使用方法。无论你是想创建一个本地化的语音合成系统，还是需要一个离线的语音识别工具，whisper都能提供一个强大且灵活的解决方案。结合提供的`pythonWhisper.py`文件...

whisper-main

07-13

在“whisper-main”中，很可能采用了深度学习的方法，尤其是端到端的模型，如卷积神经网络（CNN）、循环神经网络（RNN）或者Transformer架构。这些模型可以直接从原始音频数据中学习，减少了对传统语音学特征工程的...

基于faster whisper实时语音识别语音转文本python源码

12-31

模块： fast_whisper pyaudio 博客地址：blog.csdn.net/FL1623863129/article/details/135319194 视频演示：bilibili.com/video/BV1fQ4y1j7wb

fasterwhisper 常用模型网盘下载地址

04-11

models--Systran--faster-whisper-base models--Systran--faster-whisper-large-v1 models--Systran--faster-whisper-large-v2 models--Systran--faster-whisper-large-v3 models--Systran--faster-whisper-medium models--Systran--faster-whisper-small models--Systran--faster-whisper-tiny 常用模型下载，使用教程基于FasterWhisper的音频转换 https://datayang.blog.csdn.net/article/details/137589855

faster_whisper语音识别

TuringEvo专栏

05-23

953

检测可用设备：list_available_devices()函数。2 从音频设备读取数据，传递给 faster_whisper 识别。我这边usb摄像头带麦克风的，所以 DEV_index = 8。1 使用 pyaudio 打开音频设备。按键 r 录制 s 停止 q退出。

开源项目安装配置指南：更快的Whisper - faster-whisper

gitblog_07232的博客

09-13

2012

开源项目安装配置指南：更快的Whisper - faster-whisper faster-whisper 项目地址: https://gitcode.com/gh_mirrors/fas/faster-whisper ...

语音识别教程：Whisper

风吹落叶的博客

03-20

2334

最近看国外教学视频的需求，有些不是很适应，找了找AI字幕效果也不是很好，遂打算基于Whisper和GPT做一个AI字幕给自己。

《AI大模型开发笔记》Faster-Whisper 免费开源的高性能语音识别模型

qq837993702的博客

11-23

2683

Whisper模型根据参数量来区分，有多个不同的版本，分别是tiny，base，small medium，large， large-v2， large-v3。为了提高推理的速度，faster-whisper通过使用 CTranslate2 工具进行优化，大幅度改善了推理的速度。从下图可以看出，faster-whisper 推理时间只有原模型的1/5， GPU显存的使用也不到原来的二分之一。目前性能最好的是2023年11月7日发布的参数量为1550M的large-v3。下面是，我在代码执行过程中碰到的问题。

whisper-large-v3：速度快的令人翻译模型三种实用的调用方法

TechTornado的博客

03-19

7777

2、whisper-large-v3基础上chenxwh 制作了开源库insanely-fast-whisper ，可本地指令运行，或 Google Colab T4 GPU 运行；1、《【本地开源】whisper-large-v3：速度快得令人难以置信的翻译模型，分享三种实用的调用方法》作者：万能君软件库。3、以上两个模型应用，如果觉得使用复杂难度大，国内软件工程师制作了更简单的版本fast-whisper3。1、whisper-large-v3 是openai公司的模型，可使用Python代码调用；

[python]基于faster whisper实时语音识别语音转文本

FL1623863129的博客

12-31

2524

同时，Faster-Whisper还改进了原始的Whisper模型结构，包括减少模型的层数、减少参数量、简化模型结构等，从而减少了计算量和内存消耗，提高了推理速度。此外，Faster-Whisper还改进了推理算法、优化计算过程、减少冗余计算等，以提高模型的运行效率。Faster-Whisper项目包括一个web网页版本和一个命令行版本，同时项目内部已经整合了VAD算法。VAD是一种音频活动检测的算法，可以准确的把音频中的每一句话分离开来，让whisper更精准的定位语音开始和结束的位置。

whisper gpu使用

最新发布

03-20

### 使用 Whisper 进行 GPU 加速的语音转文字处理 Whisper 是由 OpenAI 开发的一个开源自动语音识别 (ASR) 工具，能够高效地将语音转换为文本。为了利用 GPU 提升性能，在安装和配置过程中需要注意一些特定设置。 #### 安装依赖项首先需要确保 Python 和 PyTorch 的环境已正确配置支持 GPU。可以通过以下命令安装必要的包： ```bash pip install git+https://github.com/openai/whisper.git pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 替换 cu118 为你实际使用的 CUDA 版本号 ``` 上述命令会安装最新版本的 `whisper` 库以及带有 GPU 支持的 PyTorch[^4]。 #### 配置 GPU 加速 PyTorch 自动检测可用的 GPU 并分配计算资源到它们上面。如果硬件设备兼容并成功加载了 CUDA，则无需额外修改代码即可启用 GPU 计算。可以运行如下脚本来验证当前环境中是否存在有效的 GPU 设备： ```python import torch if torch.cuda.is_available(): device = 'cuda' else: device = 'cpu' print(f'Using {device} for inference.') ``` 当确认有可用的 NVIDIA 显卡时，后续所有的张量操作都会默认迁移到该显存空间执行从而加速运算过程[^2]。 #### 调用 Whisper API 实现 STT 功能下面展示了一个简单的例子来说明如何使用预训练好的 Whisper 模型完成从本地文件读取音频流直至输出对应的文字描述整个流程： ```python import whisper model_name = "base" # 可选参数："tiny", "small", "medium", or "large" model = whisper.load_model(model_name).to('cuda') # 将模型移动至 GPU 上面 audio_path = "./example.wav" # 输入待解析的声音片段路径名字符串形式表示 result = model.transcribe(audio_path) print(result["text"]) ``` 这里通过 `.to('cuda')` 方法把神经网络实例转移到图形处理器内存区域以便充分利用其强大的浮点数计算能力加快推理速度[^3]。 #### 性能优化建议 - **选择合适的模型大小**：不同规模的 Whisper 模型在精度与效率之间存在权衡关系，请依据具体应用场景需求挑选适合自己的选项。 - **批量处理输入样本**：对于大批量连续性的音讯资料来说，采用批次方式提交请求往往可以获得更好的吞吐表现。 - **调整采样率**：某些情况下重新设定原始信号频率可能有助于改善最终效果质量。 ---