Python 语音识别

最新推荐文章于 2023-10-12 15:36:03 发布

DebJane

最新推荐文章于 2023-10-12 15:36:03 发布

阅读量787

点赞数 2

分类专栏： Python 文章标签： python asr

本文链接：https://blog.csdn.net/sueRimn/article/details/98742928

版权

该博客介绍了如何使用Python调用科大讯飞的语音听写服务，实现将实时语音转换为文字。首先，博主下载了所需库并创建了录音文件夹和相关文件。接着，详细展示了录音和语音识别的代码实现，录音部分采用循环覆盖方式，识别部分基于科大讯飞的示例进行调整。最后，说明了如何启动程序并处理可能的第三方依赖问题。

摘要由CSDN通过智能技术生成

调用科大讯飞语音听写，使用Python实现语音识别，将实时语音转换为文字。

参考这篇博客实现的录音，首先在官网下载了关于语音听写的SDK，然后在文件夹内新建了两个.py文件，分别是get_audio.py和iat_demo.py，并且新建了一个存放录音的文件夹audios，文件夹内存放录音文件input.wav，我的整个文件目录如下：

asr_SDK(文件名)
├─ Readme.html
├─ audios
│    └─ input.wav（存放音频）
├─ bin
│    ├─ gm_continuous_digit.abnf
│    ├─ ise_cn
│    ├─ ise_en
│    ├─ msc
│    ├─ msc.dll （因为我是32位的python，所以用的这个动态链接库）
│    ├─ msc_x64.dll
│    ├─ source.txt
│    ├─ userwords.txt
│    └─ wav
├─ doc
├─ get_audio.py
├─ iat_demo.py
├─ include
├─ libs
├─ release.txt
└─ samples

一、录音

这里使用的是pyaudio进行录音，需要下载相关的轮子，具体可参考我的另一篇博客。然后根据自己的需要进行了修改，gt_audio.py全部代码如下：


import pyaudio # 这个需要自己下载轮子
import wave
in_path = "./audios/input.wav" # 存放录音的路径

def get_audio(filepath):
    aa = str(input("是否开始录音？   （y/n）"))
    if aa == str("y") :
        CHUNK = 1024
        FORMAT = pyaudio.paInt16
        CHANNELS = 1                # 声道数
        RATE = 11025                # 采样率
        RECORD_SECONDS = 5          # 录音时间
        WAVE_OUTPUT_FILENAME = filepath
        p = pyaudio.PyAudio()

        stream = p.open(format=FORMAT,
                        channels=CHANNELS,
                        rate=RATE,
                        input=True,
                        frames_per_buffer=CHUNK)

        print("*"*5, "开始录音：请在5秒内输入语音", "*"*5)
        frames = []
        for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
            data = stream.read(CHUNK)
            frames.append(data)
        print("*"*5, "录音结束\n")

        stream.stop_stream()
        stream.close()
        p.terminate()

        wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
        wf.setnchannels(CHANNELS)
        wf.setsampwidth(p.get_sample_size(FORMAT))
        wf.setframerate(RATE)
        wf.writeframes