科大讯飞语音合成(tts)windows sdk代码学习笔记

最新推荐文章于 2024-05-23 17:14:28 发布

落日领航员

最新推荐文章于 2024-05-23 17:14:28 发布

阅读量3.1k

点赞数

分类专栏： AI

本文链接：https://blog.csdn.net/lrlhy1/article/details/96443870

版权

AI 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

#include

stdlib.h
stdio.h
windows.h
conio.h
- conio是Console Input/Output（控制台输入输出）的简写，其中定义了通过控制台进行数据输入和数据输出的函数，主要是一些用户通过按键盘产生的对应操作，比如getch()函数等
- 这是dos下，基于文本模式（非图形模式）的各种显示操作
  如设置前景色，背景色等。在dos下，没有conio.h，你就只能写那种黑底白字的程序。有了它，你就可以写五颜六色的程序。如TurboC的界面就是蓝底黄字的，还有菜单等
errno.h:errno.h 是C语言C标准函式库里的标头档，定义了通过错误码来回报错误资讯的宏
qtts.h
msp_cmn.h
msp_errors.h

#ifdef

一般情况下，源程序中所有的行都参加编译。但是有时希望对其中一部分内容只在满足一定条件才进行编译，也就是对一部分内容指定编译的条件，这就是“条件编译”。有时，希望当满足某条件时对一组语句进行编译，而当条件不满足时则编译另一组语句

#ifdef _WIN64
#pragma comment(lib,"../../libs/msc_x64.lib")//x64
#else
#pragma comment(lib,"../../libs/msc.lib")//x86
#endif

_WIN64 是什么？
在 Win32 配置下，_WIN32 有定义，_WIN64 没有定义。在 x64 配置下，两者都有定义，因此，_WIN32 可以用来判断是否 Windows 系统（对于跨平台程序），而 _WIN64 用来判断编译环境是 x86 还是 x64

常量\定义	预定义选项	Windows.h	VC编译器
WIN32	Win32	√(minwindef.h)	×
_WIN32	×	×	√
_WIN64	×	×	x64

#pragma comment

#pragma comment(lib,"…/…/libs/msc_x64.lib")

表示链接msc_x64.lib这个库。和在工程设置里写上链入msc_x64.lib的效果一样（两种方式等价，或说一个隐式一个显式调用），不过这种方法写的，程序别人在使用你的代码的时候就不用再设置工程settings了。告诉连接器连接的时候要找msc_x64.lib，这样你就不用在linker的lib设置里指定这个lib了

typedef struct _wave_pcm_hdr

typedef struct _wave_pcm_hdr
{
	char            riff[4];                // = "RIFF"
	int				size_8;                 // = FileSize - 8
	char            wave[4];                // = "WAVE"
	char            fmt[4];                 // = "fmt "
	int				fmt_size;				// = 下一个结构体的大小 : 16

	short int       format_tag;             // = PCM : 1
	short int       channels;               // = 通道数 : 1
	int				samples_per_sec;        // = 采样率 : 8000 | 6000 | 11025 | 16000
	int				avg_bytes_per_sec;      // = 每秒字节数 : samples_per_sec * bits_per_sample / 8
	short int       block_align;            // = 每采样点字节数 : wBitsPerSample / 8
	short int       bits_per_sample;        // = 量化比特数: 8 | 16

	char            data[4];                // = "data";
	int				data_size;              // = 纯数据长度 : FileSize - 44 
} wave_pcm_hdr;

用结构体定义输出的wav音频格式，这里可以更改为你需要的参数

主函数int main(int argc, char* argv[])

int         ret                  = MSP_SUCCESS;
const char* login_params         = "appid = , work_dir = .";//登录参数,appid与msc库绑定,请勿随意改动

ret变量用来接收函数的返回值，表示任务的完成状态，接收成功的返回代码或者错误的返回代码
login_params是登录参数，调用科大讯飞的在线语音合成API需要登录

const char* session_begin_params = "voice_name = xiaoyan, text_encoding = gb2312, sample_rate = 16000, speed = 40, volume = 50, pitch = 40, rdn = 2";
const char* filename             = "tts_sample.wav"; //合成的语音文件名称
const char* text                 = ""; //合成文本

session_begin_params用来储存合成参数，包括以下几项

rdn: 合成音频数字发音方式
volume: 合成音频的音量
pitch: 合成音频的音调
speed: 合成音频对应的语速
voice_name: 合成发音人
sample_rate: 合成音频采样率
text_encoding: 合成文本编码格式

可选的发音人有如下几个：
在这里插入图片描述

ret = MSPLogin(NULL, NULL, login_params); //第一个参数是用户名，第二个参数是密码，第三个参数是登录参数，用户名和密码可在http://www.xfyun.cn注册获取
	if (MSP_SUCCESS != ret)
	{
		printf("MSPLogin failed, error code: %d.\n", ret);
		goto exit ;//登录失败，退出登录
	}

MSPLogin函数包含在头文件msp_cmn.h中，使用讯飞分配的登录参数进行登录，并返回代码给ret，若登录失败返回错误代码并退出

	printf("\n###########################################################################\n");
	printf("## 语音合成（Text To Speech，TTS）技术能够自动将任意文字实时转换为连续的 ##\n");
	printf("## 自然语音，是一种能够在任何时间、任何地点，向任何人提供语音信息服务的  ##\n");
	printf("## 高效便捷手段，非常符合信息时代海量数据、动态更新和个性化查询的需求。  ##\n");
	printf("###########################################################################\n\n");

向屏幕上输出相关信息

ret = text_to_speech(text, filename, session_begin_params);
	if (MSP_SUCCESS != ret)
	{
		printf("text_to_speech failed, error code: %d.\n", ret);
	}
	printf("合成完毕\n");

调用语音合成函数，传入的3个参数分别为要合成的文本，合成后wav音频文件的文件名，以及前面提到的合成参数，ret变量接收函数返回值，若失败则打印错误代码并退出

MSPLogout();

退出登录函数，包含在头文件msp_cmn.h中

语音合成函数int text_to_speech(const char* src_text, const char* des_path, const char* params)

	int          ret          = -1;
	FILE*        fp           = NULL;
	const char*  sessionID    = NULL;
	unsigned int audio_len    = 0;
	wave_pcm_hdr wav_hdr      = default_wav_hdr;
	int          synth_status = MSP_TTS_FLAG_STILL_HAVE_DATA;

ret用来接收返回值
FILE fp文件指针用来创建音频文件
…

	if (NULL == src_text || NULL == des_path)
	{
		printf("params is error!\n");
		return ret;
	}
	fp = fopen(des_path, "wb");
	if (NULL == fp)
	{
		printf("open %s error.\n", des_path);
		return ret;
	}

若合成文本或者音频文件路径为空，则提示参数错误并退出
创建并打开音频文件，若创建失败，则提示打开文件失败

/* 开始合成 */
	sessionID = QTTSSessionBegin(params, &ret);
	if (MSP_SUCCESS != ret)
	{
		printf("QTTSSessionBegin failed, error code: %d.\n", ret);
		fclose(fp);
		return ret;
	}
	ret = QTTSTextPut(sessionID, src_text, (unsigned int)strlen(src_text), NULL);
	if (MSP_SUCCESS != ret)
	{
		printf("QTTSTextPut failed, error code: %d.\n",ret);
		QTTSSessionEnd(sessionID, "TextPutError");
		fclose(fp);
		return ret;
	}
	printf("正在合成 ...\n");
	fwrite(&wav_hdr, sizeof(wav_hdr) ,1, fp); //添加wav音频头，使用采样率为16000
	while (1) 
	{
		/* 获取合成音频 */
		const void* data = QTTSAudioGet(sessionID, &audio_len, &synth_status, &ret);
		if (MSP_SUCCESS != ret)
			break;
		if (NULL != data)
		{
			fwrite(data, audio_len, 1, fp);
		    wav_hdr.data_size += audio_len; //计算data_size大小
		}
		if (MSP_TTS_FLAG_DATA_END == synth_status)
			break;
		printf(">");
		Sleep(150); //防止频繁占用CPU
	}
	printf("\n");
	if (MSP_SUCCESS != ret)
	{
		printf("QTTSAudioGet failed, error code: %d.\n",ret);
		QTTSSessionEnd(sessionID, "AudioGetError");
		fclose(fp);
		return ret;
	}
	/* 修正wav文件头数据的大小 */
	wav_hdr.size_8 += wav_hdr.data_size + (sizeof(wav_hdr) - 8);
	
	/* 将修正过的数据写回文件头部,音频文件为wav格式 */
	fseek(fp, 4, 0);
	fwrite(&wav_hdr.size_8,sizeof(wav_hdr.size_8), 1, fp); //写入size_8的值
	fseek(fp, 40, 0); //将文件指针偏移到存储data_size值的位置
	fwrite(&wav_hdr.data_size,sizeof(wav_hdr.data_size), 1, fp); //写入data_size的值
	fclose(fp);
	fp = NULL;
	/* 合成完毕 */
	ret = QTTSSessionEnd(sessionID, "Normal");
	if (MSP_SUCCESS != ret)
	{
		printf("QTTSSessionEnd failed, error code: %d.\n",ret);
	}

	return ret;
}

以上代码为具体的语音合成过程，暂时没有能力看懂qaq

落日领航员

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
科大讯飞语音合成(tts)windows sdk代码学习笔记

#includestdlib.hstdio.hwindows.hconio.hconio是Console Input/Output（控制台输入输出）的简写，其中定义了通过控制台进行数据输入和数据输出的函数，主要是一些用户通过按键盘产生的对应操作，比如getch()函数等这是dos下，基于文本模式（非图形模式）的各种显示操作如设置前景色，背景色等。在dos下，没有conio.h，你...
复制链接

扫一扫

专栏目录