VC++基于微软语音引擎开发语音识别总结

最新推荐文章于 2024-06-23 00:40:54 发布

尹成

最新推荐文章于 2024-06-23 00:40:54 发布

阅读量3.6w

点赞数 8

分类专栏： VC++编程技术 Visual C++2010编程技术微软语音识别语音朗读技术 Visual C++2010开发编程 WindowsC++编程语音交互开发文章标签：引擎 vc++ 微软 preprocessor tts api

本文链接：https://blog.csdn.net/itcastcpp/article/details/5313204

版权

本文介绍了如何利用SAPI API在VC++中开发语音识别应用，涉及TTS和语音识别系统的概念，以及ISpVoice接口控制文本语音转换、ISpRecoContext接口进行语音识别的相关细节。同时讲解了事件处理、字典定制和音频输出等关键步骤，并提供了在MFC中进行语音识别开发的主要步骤。

摘要由CSDN通过智能技术生成

关于SAPI的简介

API 概述

SAPI API在一个应用程序和语音引擎之间提供一个高级别的接口。SAPI 实现了所有必需的对各种语音引擎的实时的控制和管理等低级别的细节。

SAPI引擎的两个基本类型是文本语音转换系统(TTS)和语音识别系统。TTS系统使用合成语音合成文本字符串和文件到声音音频流。语音识别技术转换人类的声音语音流到可读的文本字符串或者文件。

文本语音转换API

应用程序能通过IspVoice的对象组建模型(COM)接口控制文本语音转换。一旦一个应用程序有一个已建立的IspVoice对象(见Text-to-Speech指南)，这个应用程序就只需要调用ISpVoice::Speak 就可以从文本数据得到发音。另外，ISpVoice接口也提供一些方法来改变声音和合成属性，如语速ISpVoice::SetRate，输出音量ISpVoice::SetVolume，改变当前讲话的声音ISpVoice::SetVoice等。

特定的SAPI控制器也可以嵌入输入文本使用来实时的改变语音合成器的属性，如声音，音调，强调字，语速和音量。这些合成标记在sapi.xsd中，使用标准的XML格式，这是一个简单但很强大定制TTS语音的方法，不依赖于特定的引擎和当前使用的声音。

ISpVoice::Speak方法能够用于同步的（当完全的完成朗读后才返回）或异步的（立即返回，朗读在后台处理）操作。当同步朗读（SPF_ASYNC）时，实时的状态信息如朗读状态和当前文本位置可以通过ISpVoice::GetStatus得到。当异步朗读时，可以打断当前的朗读输出以朗读一个新文本或者把新文本自动附加在当前朗读输出的文本的末尾。

除了ISpVoice接口之外SAPI也为高级TTS应用程序提供许多有用的COM接口。