利用Python实现语音识别功能，只需3个步骤！

最新推荐文章于 2024-09-15 16:54:15 发布

Python编程KK

最新推荐文章于 2024-09-15 16:54:15 发布

阅读量9.3k

点赞数 12

文章标签： Python Python开发后端编程语言人工智能

本文链接：https://blog.csdn.net/meiguanxi7878/article/details/101079647

版权

这篇博客介绍了如何利用Python调用科大讯飞的语音听写服务，将实时语音转换成文字。首先，博主分享了录音的实现，使用特定库进行录音并存储。接着，详细讲解了如何进行语音识别，基于科大讯飞的示例代码进行调整。最后，说明了启动程序的步骤，提醒读者在缺少第三方包时自行安装。

摘要由CSDN通过智能技术生成

调用科大讯飞语音听写，使用Python实现语音识别，将实时语音转换为文字。

首先在官网下载了关于语音听写的SDK，然后在文件夹内新建了两个.py文件，分别是get_audio.py和iat_demo.py，并且新建了一个存放录音的文件夹audios，文件夹内存放录音文件input.wav，我的整个文件目录如下：

asr_SDK(文件名)
├─ Readme.html
├─ audios
│    └─ input.wav（存放音频）
├─ bin
│    ├─ gm_continuous_digit.abnf
│    ├─ ise_cn
│    ├─ ise_en
│    ├─ msc
│    ├─ msc.dll （因为我是32位的python，所以用的这个动态链接库）
│    ├─ msc_x64.dll
│    ├─ source.txt
│    ├─ userwords.txt
│    └─ wav
├─ doc
├─ get_audio.py
├─ iat_demo.py
├─ include
├─ libs
├─ release.txt
└─ samples

一、录音

这里使用的是pyaudio进行录音，需要下载相关的轮子，具体可参考我的另一篇博客。然后根据自己的需要进行了修改，gt_audio.py全部代码如下：

在学习过程中有什么不懂得可以加我的
python学习交流扣扣qun，784758214
群里有不错的学习视频教程、开发工具与电子书籍。
与你分享python企业当下人才需求及怎么从零基础学习好python，和学习什么内容
import pyaudio # 这个需要自己下载轮子
import wave
in_path = "./audios/input.wav" # 存放录音的路径

def get_audio(filepath):
    aa = str(input("是否开始录音？   （y/n）"))
    if aa == str("y") :
        CHUNK = 1024
        FORMAT = pyaudio.paInt16
        CHANNELS = 1                # 声道数
        RATE = 11025                # 采样率
        RECORD_SECONDS = 5          # 录音时间
        WAVE_OUTPUT_FILENAME = filepath
        p = pyaudio.PyAudio()

        stream = p.open(format=FORMAT,
                        channels=CHANNELS,
                        rate=RATE,
                        input=True,
                        frames_per_buffer=CHUNK)

        print("*"*5, "开始录音：请在5秒内输入语音", "*"*5)
        frames = []
        for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
            data = stream.read(CHUNK)