学习如何将音频转换为文本
介绍
语音到文本 API 提供了两个端点,transcriptions
和translations
基于我们最先进的开源大型Whisper-v2模型。它们可以用于:
- 将音频转录成任何语言。
- 将音频翻译并转录成英语。
文件上传目前限制为 25 MB,并支持以下输入文件类型:mp3
、mp4
、mpeg
、mpga
、m4a
、wav
和 webm
。
快速入门
转录
转录 API 的输入是您想要转录的音频文件和所需的音频转录输出文件格式。我们目前支持多种输入和输出文件格式。
# Note: you need to be using OpenAI Python v0.27.0 for the code below to work
import openai
audio_file= open("/path/to/file/audio.mp3", "rb")
transcript = openai.Audio.transcribe("whisper-1", audio_file)
默认情况下,响应类型将是包含原始文本的json。
{
“text”:“想象一下你曾经拥有的最疯狂的想法,你很好奇它如何扩展到比原来大100倍、1000倍的规模。
....
}
要在请求中设置其他参数,您可以添加更多的 --form 行并使用相关选项。例如,如果您想将输出格式设置为文本,则应添加以下行:
...
--form file