调用科大讯飞语音听写,使用
Python
实现语音识别,将实时语音转换为文字。
参考这篇博客实现的录音,首先在官网下载了关于语音听写的SDK
,然后在文件夹内新建了两个.py
文件,分别是get_audio.py
和iat_demo.py
,并且新建了一个存放录音的文件夹audios
,文件夹内存放录音文件input.wav
,我的整个文件目录如下:
asr_SDK(文件名)
├─ Readme.html
├─ audios
│ └─ input.wav(存放音频)
├─ bin
│ ├─ gm_continuous_digit.abnf
│ ├─ ise_cn
│ ├─ ise_en
│ ├─ msc
│ ├─ msc.dll (因为我是32位的python,所以用的这个动态链接库)
│ ├─ msc_x64.dll
│ ├─ source.txt
│ ├─ userwords.txt
│ └─ wav
├─ doc
├─ get_audio.py
├─ iat_demo.py
├─ include
├─ libs
├─ release.txt
└─ samples
一、录音
这里使用的是pyaudio
进行录音,需要下载相关的轮子,具体可参考我的另一篇博客。然后根据自己的需要进行了修改,gt_audio.py
全部代码如下:
import pyaudio # 这个需要自己下载轮子
import wave
in_path = "./audios/input.wav" # 存放录音的路径
def get_audio(filepath):
aa = str(input("是否开始录音? (y/n)"))
if aa == str("y") :
CHUNK = 1024
FORMAT = pyaudio.paInt16
CHANNELS = 1 # 声道数
RATE = 11025 # 采样率
RECORD_SECONDS = 5 # 录音时间
WAVE_OUTPUT_FILENAME = filepath
p = pyaudio.PyAudio()
stream = p.open(format=FORMAT,
channels=CHANNELS,
rate=RATE,
input=True,
frames_per_buffer=CHUNK)
print("*"*5, "开始录音:请在5秒内输入语音", "*"*5)
frames = []
for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
data = stream.read(CHUNK)
frames.append(data)
print("*"*5, "录音结束\n")
stream.stop_stream()
stream.close()
p.terminate()
wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
wf.setnchannels(CHANNELS)
wf.setsampwidth(p.get_sample_size(FORMAT))
wf.setframerate(RATE)
wf.writeframes