怎么用python将音频转为字幕(文本)？

最新推荐文章于 2024-06-21 19:21:17 发布

宇宙无敌帅超人

最新推荐文章于 2024-06-21 19:21:17 发布

阅读量1.9w

点赞数 6

分类专栏： python基础文章标签： python语音转文字 python语音转字幕

本文链接：https://blog.csdn.net/weixin_40896352/article/details/88013914

版权

python基础专栏收录该内容

4 篇文章 0 订阅

订阅专栏

今天接到一个用python实现音频转文本字幕的单子，首先想到用IBM的SpeechRecognition服务，经过去IBM CLOUD申请服务，再通过python掉包speech_recognition的一顿操作后发现，新版本的IBM cloud服务竟然将原凭证的username+pwd的验证形式改成了APIKEY+URL的形式

然后官方给出了用curl指令调用API接口实现本地音频转文字的方法：

curl -X POST -u "apikey:{apikey}" --header "Content-Type: audio/flac" --data-binary @{path_to_file}audio-file.flac "{url}/v1/recognize"

测试了下也能用，最可怕的问题来了，我是要把curl指令转成python代码实现功能的呀，好了，转换后的python代码如下：

import requests

headers = {
    'Content-Type': 'audio/flac',
}

data = open('audio-file.flac', 'rb').read()
r = requests.post('https://gateway-wdc.watsonplatform.net/speech-to-text/api/v1/recognize', headers=headers, data=data, auth=('apikey', '***************************'))
print(r.text)

测试效果：

这根本没用到包好嘛.....竟然直接请求接口就可以了。最后附上原版本调用接口实现方法的代码：

import speech_recognition as sr
import requests

harvard = sr.AudioFile('23.wav')
r = sr.Recognizer()
with harvard as source:
    audio = r.record(source)
print(type(audio))

IBM_USERNAME = '************************'
IBM_PASSWORD = '************************'

text = r.recognize_google(audio, username= IBM_USERNAME, password = IBM_PASSWORD, language = 'zh-CN')
print(text)

宇宙无敌帅超人

关注

6
点赞
踩
41

收藏

觉得还不错? 一键收藏
5
评论
怎么用python将音频转为字幕(文本)？

今天接到一个用python实现音频转文本字幕的单子，首先想到用IBM的SpeechRecognition服务，经过去IBM CLOUD申请服务，再通过python掉包speech_recognition的一顿操作后发现，新版本的IBM cloud服务竟然将原凭证的username+pwd的验证形式改成了APIKEY+URL的形式然后官方给出了用curl指令调用API接口实现本地音频转文字的...
复制链接

扫一扫

专栏目录