win10下python跑科大讯飞语音唤醒

最新推荐文章于 2024-03-19 15:24:41 发布

马克布克打字机

最新推荐文章于 2024-03-19 15:24:41 发布

阅读量5.5k

点赞数 10

分类专栏： python 文章标签： python 语音唤醒科大讯飞

本文链接：https://blog.csdn.net/muxiong0308/article/details/113835127

版权

本文介绍了如何在Windows 10环境下，利用Python结合科大讯飞的语音唤醒SDK进行开发。首先，通过科大讯飞开放平台下载SDK并设置关键字。接着，遵循API调用流程，利用pyaudio实现音频录制功能。当说出预设的唤醒词时，程序将响应并记录相应日志。文章提供了相关参考资料，包括Python调用C语言接口的教程和科大讯飞的SDK文档。

摘要由CSDN通过智能技术生成

2020年下半年一时心血来潮玩了一下科大讯飞的语音唤醒，现在才想起来整理一下写一写。

科大讯飞语音唤醒sdk下载

到科大讯飞开放平台注册后，选择相应的开发环境，设定好语音唤醒的关键字（这里我设置的是Friday），下载sdk，得到这么些东西：
在这里插入图片描述

API调用流程

参考文档中心的调用流程：
在这里插入图片描述

可以看到QIVWaudiowrite那里，是要输入录制好的音频源，api再判断是否包含有关键词，所以这里写了一个录音机（recorder），在这里循环录制音频。

pyaudio写recorder

这里用的是pyaudio进行音频录制，详细资料见pyaudio官方文档。

import pyaudio
from loguru import logger

'''
参考文档
http://people.csail.mit.edu/hubert/pyaudio/#docs
'''


class Recorder(object):

    def __init__(self, FORMAT=pyaudio.paInt16, CHANNELS=1, RATE=16000, CHUNK=1024):
        self.CHUNK = CHUNK
        self.FORMAT = FORMAT
        self.CHANNELS = CHANNELS
        self.RATE = RATE

        self.p = pyaudio.PyAudio()
        self.stream = self.p.open(format=self.FORMAT,
                                  channels=self.CHANNELS,
                                  rate=self.RATE,
                                  input=True,
                                  frames_per_buffer=self.CHUNK)
        logger.info(