ChatGPT API之语音转文字

学习如何将音频转换为文本

介绍

语音到文本 API 提供了两个端点,transcriptionstranslations基于我们最先进的开源大型Whisper-v2模型。它们可以用于:

  • 将音频转录成任何语言。
  • 将音频翻译并转录成英语。

文件上传目前限制为 25 MB,并支持以下输入文件类型:mp3mp4mpegmpgam4awav 和 webm

快速入门

转录

转录 API 的输入是您想要转录的音频文件和所需的音频转录输出文件格式。我们目前支持多种输入和输出文件格式。

# Note: you need to be using OpenAI Python v0.27.0 for the code below to work
import openai
audio_file= open("/path/to/file/audio.mp3", "rb")
transcript = openai.Audio.transcribe("whisper-1", audio_file)

默认情况下,响应类型将是包含原始文本的json。

{
“text”:“想象一下你曾经拥有的最疯狂的想法,你很好奇它如何扩展到比原来大100倍、1000倍的规模。
....
}

要在请求中设置其他参数,您可以添加更多的 --form 行并使用相关选项。例如,如果您想将输出格式设置为文本,则应添加以下行:

...
--form file=@openai.mp3 \
--form model=whisper-1 \
--form response_format=text

在这种情况下,输入的音频是德语,输出的文本如下:

你好,我叫沃尔夫冈,来自德国。你今天要去哪里?

目前我们只支持英语翻译。

支持的语言

我们目前通过transcriptionstranslations支持以下语言:

南非荷兰语,阿拉伯语,亚美尼亚语,阿塞拜疆语,白俄罗斯语,波斯尼亚语,保加利亚语,加泰罗尼亚语,中文简体、繁体 ,克罗地亚 、捷克 、丹麦 、荷兰 、英文 、爱沙尼亚 、芬兰 、法国 、加利西亚(西班牙), 德国 , 希腊 , 希伯来 , 印地 , 匈牙利, 冰岛, 印度尼西亞, 意大利, 日本語, 卡纳达 (卡纳拉),哈萨克斯坦(哈萨克) , 韩国 (朝鲜) , 拉脱维亚 (列托) ,立陶宛 (立陶宛人) ,马其顿 (马其顿人),马来西雅(马来),马拉提(印度),毛里族(毛里求斯), 尼泊尔 (尼泊尔人) ,挪威 (挪威人) , 波斯語/ 波兰语,葡萄牙语,罗马尼亚语,俄罗斯语,塞尔维亚(塞尔维亚人),斯洛伐克 (斯洛伐克人) , 斯洛文尼亚 (斯洛文尼亚) ,西班牙語, 斯瓦希里語, 瑞典語, 塔加路族(菲律宾),泰米爾語/ தமிழ் , 泰国 、土耳其 、乌克兰 、乌尔都语 / 越南和威尔士。

虽然底层模型是在98种语言上进行训练的,但我们仅列出了超过50%单词错误率(WER)的语言。这是一种行业标准基准测试方法来衡量音频转文字模型的准确性。该模型将返回未列出以上支持的其他所有语言结果,但质量会较低。

更长的输入

默认情况下,Whisper API仅支持小于25 MB的文件。如果您有一个超过此大小的音频文件,则需要将其分成每个不超过25 MB或使用压缩音频格式的块。为了获得最佳性能,我们建议避免在句子中间断开音频,因为这可能会导致一些上下文丢失。

处理此问题的一种方法是使用PyDub开源Python软件包来拆分音频:

from pydub import AudioSegment
song = AudioSegment.from_mp3("good_morning.mp3")
# PyDub handles time in milliseconds
ten_minutes = 10 * 60 * 1000
first_10_minutes = song[:ten_minutes]
first_10_minutes.export("good_morning_10.mp3", format="mp3")

OpenAI 不保证像 PyDub 这样的第三方软件的可用性或安全性。

提示

您可以使用提示来提高Whisper API生成的转录质量。模型将尝试匹配提示的风格,因此如果提示也使用大写和标点符号,则更有可能使用它们。但是,当前的提示系统比我们其他语言模型要受限得多,并且仅对生成的音频提供有限控制。以下是一些示例,说明如何在不同情况下使用提示:

  1. 提示对于纠正模型在音频中经常错误识别的特定单词或缩写非常有帮助。例如,以下提示改善了DALL·E和GPT-3这些单词的转录,它们以前被写成“GDP 3”和“DALI”。
这份记录是关于OpenAI的,他们开发了像DALL·E、GPT-3和ChatGPT这样的技术,并希望有一天能够构建一个造福全人类的AGI系统。
  1. 为了保留被分割成片段的文件的上下文,您可以使用前一个片段的转录提示模型。这将使转录更加准确,因为模型将使用先前音频中的相关信息。该模型仅考虑提示的最后224个标记,并忽略任何早期内容。
  2. 有时候,模型可能会跳过转录中的标点符号。您可以通过使用包含标点符号的简单提示来避免这种情况:
你好,欢迎来听我的讲座。
  1. 该模型可能会在音频中省略常见的填充词。如果您想在转录中保留这些填充词,可以使用包含它们的提示:
嗯,让我想想,嗯……好的,这就是我在想的。
  1. 有些语言可以用不同的书写方式来表达,比如简体或繁体中文。模型可能默认使用你所期望的转录书写风格并非总是如此。你可以通过使用符合你偏好的提示来改善这一点。

如果您想体验ChatGPT 推荐一波 使用 API 随心用

采用该方法就可以 使用 API 随心用 可以将各种主流 Al 的模型能力集成到您的应用程序或业务中 API 主要在代码中调用

还可以达到 OpenAI快捷注册 一键升级

可以满足不同需求用户 使用 API 随心用

  • 39
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
要实现uniapp的语音文字功能,可以参考以下步骤: 1. 首先,在PDA上开启文字语音功能,确保设备支持该功能。 2. 在uniapp中,可以使用百度语音API来实现语音文字功能。你需要前往百度语音API的官方网站申请API权限,并获取到AppID、API Key和Secret Key三个参数。 3. 打开uniapp项目的manifest.json文件,在"App模块配置"项中勾选"Speech",并将上一步获取到的三个参数填入相应的位置。 4. 在uniapp的代码中,使用百度语音API的接口来实现语音文字功能。具体的操作可以根据百度语音API提供的文档进行编写。 需要注意的是,使用百度语音API可能会有一定的费用。如果你不希望使用收费的接口,可以尝试寻找其他免费的语音文字解决方案,或者自行开发相应功能。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [uniapp文字语音最优方案](https://download.csdn.net/download/pxfpxf/88244365)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [uniapp使用百度语音识别语音文字](https://blog.csdn.net/wangle_style/article/details/118809265)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值