简介
Whisper 是 OpenAI 的一项语音处理项目,旨在实现语音的识别、翻译和生成任务。作为基于深度学习的语音识别模型,Whisper 具有高度的智能化和准确性,能够有效地转换语音输入为文本,并在多种语言之间进行翻译。通过不断的优化和更新,Whisper 致力于提供更加优质和高效的语音处理解决方案,以满足不同场景和需求下的语音交互应用。
Whisper 的优点
Whisper 借助丰富多样的数据集,这些数据集中的语音数据与互联网上的文本记录相匹配,并结合了一种名为“注意力机制”的技术。这项技术使得 Whisper 在处理语音时,能够更加有效地捕捉到语音中的关键信息。
这种综合运用数据和先进技术的方式,使得 Whisper 提高了其在各种环境下的健壮性和准确性,能够实现更为精确、智能的语音识别和翻译,为用户提供更加出色的语音处理体验。
多任务
Whisper 并不仅仅是预测给定音频的单词,虽然这是是语音识别的核心,但它还包含许多其他附加的功能组件,例如语言活动检测、说话人二值化和逆文本正态化。
采用 Transformer 序列到序列模型可以实现针对不同的语言处理任务。包括以下几种:
- 语音识别
- 语音翻译
- 口语识别
- 语音活动检测
这些任务的输出由模型预测的令牌序列表示,使得单个模型可以代替传统的语音处理管道中的多个组件,如下所示:
应用
安装
openai-whisper
openai-whisper 与 python 3.8-3.11 和最新的 PyTorch 版本兼容。
使用 pip 命令安装:pip install -U openai-whisper
ffmpeg
openai-whisper 需要 ffmpeg 的环境,ffmpeg 是一个开源的跨平台音视频处理工具和框架,可以用来录制、转换和流式传输音视频内容 。
MAC
- 安装:
brew install ffmpeg
- 验证:
ffmpeg -version
出现版本信息且无报错表示安装成功。
Windows
- 安装:选择版本下载安装:
- 环境配置:下载解压完成后,需要将 Ffmpeg 的执行文件坐在目录添加到系统的环境变量中。
- 验证:在 cmd 中输入
ffmpeg -version
出现版本信息且无报错表示安装成功。
示例用法
- demo1 音频素材: 下载(https://v3-ai.tutorial.hogwarts.ceshiren.com/ai/aigc/v3/L1/tutorial/assets/demo1.mp3)
- demo2 音频素材: 下载(https://v3-ai.tutorial.hogwarts.ceshiren.com/ai/aigc/v3/L1/tutorial/assets/demo2.mp3)
命令行
# 将音频的内容转为文本,使用base模型
whisperdemo1.mp3--modelbase--tasktranscribe
命令行常用参数
参数 | 含义 | 默认 |
---|---|---|
–model | 要使用的 Whisper 模型名称 | small |
–task | 转录(transcribe)或翻译(translate) | transcribe |
–language | 指定执行的语言 | None |
–temperature | 指定输出内容的相似度 | 0 |
–output_dir | 指定输出文件的保存路径 | . |
Python 代码
import whisper
# 初始化一个 base 模型
model = whisper.load_model("base")
# 传入音频文件,并得到音频输出的文本内容
res = model.transcribe("demo.mp3")
print(res["text"])
模型调用
安装 openai 第三方库,本篇教程使用 1.16.1
版本的 openai:pip install openai
def test_openai_whisper():
# 初始化OpenAI对象
client = OpenAI(base_url="xxx",api_key="xxx")
# 打开一个音频文件
audio_file1 = open("demo1.mp3", 'rb')
audio_file2 = open("demo2.mp3", 'rb')
# 选择模型,并且转录音频的内容
res1 = client.audio.transcriptions.create(model="whisper-1", file=audio_file1)
res2 = client.audio.transcriptions.create(model="whisper-1", file=audio_file2)
# 翻译为英文
res3 = client.audio.translations.create(model="whisper-1", file=audio_file2)
print(f"audio1转录结果为:{res1.text}")
print(f"audio2转录结果为:{res1.text}")
print(f"audio2翻译结果为:{res1.text}")
总结
- 了解 Whisper 相关概念。
- 完成环境安装。
- 学会基础示例练习。
送您一份软件测试学习资料大礼包
推荐阅读
软件测试学习笔记丨Pytest配置文件
测试开发实战 | Docker+Jmeter+InfluxDB+Grafana 搭建性能监控平台
技术分享 | app自动化测试(Android)–元素定位方式与隐式等待
软件测试学习笔记丨Mitmproxy使用
软件测试学习笔记丨Chrome开发者模式
软件测试学习笔记丨Docker 安装、管理、搭建服务
软件测试学习笔记丨Postman基础使用
人工智能 | 阿里通义千问大模型
软件测试学习笔记丨接口测试与接口协议
软件测试学习笔记丨Pytest的使用
推荐学习
【霍格沃兹测试开发】7天软件测试快速入门带你从零基础/转行/小白/就业/测试用例设计实战
【霍格沃兹测试开发】最新版!Web 自动化测试从入门到精通/ 电子商务产品实战/Selenium (上集)
【霍格沃兹测试开发】最新版!Web 自动化测试从入门到精通/ 电子商务产品实战/Selenium (下集)
【霍格沃兹测试开发】明星讲师精心打造最新Python 教程软件测试开发从业者必学(上集)
【霍格沃兹测试开发】明星讲师精心打造最新Python 教程软件测试开发从业者必学(下集)
【霍格沃兹测试开发】精品课合集/ 自动化测试/ 性能测试/ 精准测试/ 测试左移/ 测试右移/ 人工智能测试
【霍格沃兹测试开发】腾讯/ 百度/ 阿里/ 字节测试专家技术沙龙分享合集/ 精准化测试/ 流量回放/Diff
【霍格沃兹测试开发】Pytest 用例结构/ 编写规范 / 免费分享
【霍格沃兹测试开发】JMeter 实时性能监控平台/ 数据分析展示系统Grafana/Docker 安装
【霍格沃兹测试开发】接口自动化测试的场景有哪些?为什么要做接口自动化测试?如何一键生成测试报告?
【霍格沃兹测试开发】面试技巧指导/ 测试开发能力评级/1V1 模拟面试实战/ 冲刺年薪百万!
【霍格沃兹测试开发】腾讯软件测试能力评级标准/ 要评级表格的联系我
【霍格沃兹测试开发】Pytest 与Allure2 一键生成测试报告/ 测试用例断言/ 数据驱动/ 参数化
【霍格沃兹测试开发】App 功能测试实战快速入门/adb 常用命令/adb 压力测试
【霍格沃兹测试开发】阿里/ 百度/ 腾讯/ 滴滴/ 字节/ 一线大厂面试真题讲解,卷完拿高薪Offer !