2020年下半年一时心血来潮玩了一下科大讯飞的语音唤醒,现在才想起来整理一下写一写。
科大讯飞语音唤醒sdk下载
到科大讯飞开放平台注册后,选择相应的开发环境,设定好语音唤醒的关键字(这里我设置的是Friday),下载sdk,得到这么些东西:
API调用流程
参考文档中心的调用流程:
可以看到QIVWaudiowrite那里,是要输入录制好的音频源,api再判断是否包含有关键词,所以这里写了一个录音机(recorder),在这里循环录制音频。
pyaudio写recorder
这里用的是pyaudio进行音频录制,详细资料见pyaudio官方文档。
import pyaudio
from loguru import logger
'''
参考文档
http://people.csail.mit.edu/hubert/pyaudio/#docs
'''
class Recorder(object):
def __init__(self, FORMAT=pyaudio.paInt16, CHANNELS=1, RATE=16000, CHUNK=1024):
self.CHUNK = CHUNK
self.FORMAT = FORMAT
self.CHANNELS = CHANNELS
self.RATE = RATE
self.p = pyaudio.PyAudio()
self.stream = self.p.open(format=self.FORMAT,
channels=self.CHANNELS,
rate=self.RATE,
input=True,
frames_per_buffer=self.CHUNK)
logger.info(