科大讯飞语音合成(tts)windows sdk代码学习笔记

#include

  1. stdlib.h
  2. stdio.h
  3. windows.h
  4. conio.h
    • conio是Console Input/Output(控制台输入输出)的简写,其中定义了通过控制台进行数据输入和数据输出的函数,主要是一些用户通过按键盘产生的对应操作,比如getch()函数等
    • 这是dos下,基于文本模式(非图形模式)的各种显示操作
      如设置前景色,背景色等。在dos下,没有conio.h,你就只能写那种黑底白字的程序。有了它,你就可以写五颜六色的程序。如TurboC的界面就是蓝底黄字的,还有菜单等
  5. errno.h:errno.h 是C语言C标准函式库里的标头档,定义了通过错误码来回报错误资讯的宏
  6. qtts.h
  7. msp_cmn.h
  8. msp_errors.h
     

#ifdef

一般情况下,源程序中所有的行都参加编译。但是有时希望对其中一部分内容只在满足一定条件才进行编译,也就是对一部分内容指定编译的条件,这就是“条件编译”。有时,希望当满足某条件时对一组语句进行编译,而当条件不满足时则编译另一组语句

#ifdef _WIN64
#pragma comment(lib,"../../libs/msc_x64.lib")//x64
#else
#pragma comment(lib,"../../libs/msc.lib")//x86
#endif

_WIN64 是什么?
在 Win32 配置下,_WIN32 有定义,_WIN64 没有定义。在 x64 配置下,两者都有定义,因此,_WIN32 可以用来判断是否 Windows 系统(对于跨平台程序),而 _WIN64 用来判断编译环境是 x86 还是 x64

常量\定义预定义选项Windows.hVC编译器
WIN32Win32√(minwindef.h)×
_WIN32××
_WIN64××x64

#pragma comment

#pragma comment(lib,"…/…/libs/msc_x64.lib")

表示链接msc_x64.lib这个库。和在工程设置里写上链入msc_x64.lib的效果一样(两种方式等价,或说一个隐式一个显式调用),不过这种方法写的,程序别人在使用你的代码的时候就不用再设置工程settings了。告诉连接器连接的时候要找msc_x64.lib,这样你就不用在linker的lib设置里指定这个lib了

typedef struct _wave_pcm_hdr

typedef struct _wave_pcm_hdr
{
	char            riff[4];                // = "RIFF"
	int				size_8;                 // = FileSize - 8
	char            wave[4];                // = "WAVE"
	char            fmt[4];                 // = "fmt "
	int				fmt_size;				// = 下一个结构体的大小 : 16

	short int       format_tag;             // = PCM : 1
	short int       channels;               // = 通道数 : 1
	int				samples_per_sec;        // = 采样率 : 8000 | 6000 | 11025 | 16000
	int				avg_bytes_per_sec;      // = 每秒字节数 : samples_per_sec * bits_per_sample / 8
	short int       block_align;            // = 每采样点字节数 : wBitsPerSample / 8
	short int       bits_per_sample;        // = 量化比特数: 8 | 16

	char            data[4];                // = "data";
	int				data_size;              // = 纯数据长度 : FileSize - 44 
} wave_pcm_hdr;

用结构体定义输出的wav音频格式,这里可以更改为你需要的参数

主函数int main(int argc, char* argv[])

int         ret                  = MSP_SUCCESS;
const char* login_params         = "appid = , work_dir = .";//登录参数,appid与msc库绑定,请勿随意改动

ret变量用来接收函数的返回值,表示任务的完成状态,接收成功的返回代码或者错误的返回代码
login_params是登录参数,调用科大讯飞的在线语音合成API需要登录

const char* session_begin_params = "voice_name = xiaoyan, text_encoding = gb2312, sample_rate = 16000, speed = 40, volume = 50, pitch = 40, rdn = 2";
const char* filename             = "tts_sample.wav"; //合成的语音文件名称
const char* text                 = ""; //合成文本

session_begin_params用来储存合成参数,包括以下几项

  • rdn: 合成音频数字发音方式
  • volume: 合成音频的音量
  • pitch: 合成音频的音调
  • speed: 合成音频对应的语速
  • voice_name: 合成发音人
  • sample_rate: 合成音频采样率
  • text_encoding: 合成文本编码格式

可选的发音人有如下几个:
在这里插入图片描述

ret = MSPLogin(NULL, NULL, login_params); //第一个参数是用户名,第二个参数是密码,第三个参数是登录参数,用户名和密码可在http://www.xfyun.cn注册获取
	if (MSP_SUCCESS != ret)
	{
		printf("MSPLogin failed, error code: %d.\n", ret);
		goto exit ;//登录失败,退出登录
	}

MSPLogin函数包含在头文件msp_cmn.h中,使用讯飞分配的登录参数进行登录,并返回代码给ret,若登录失败返回错误代码并退出

	printf("\n###########################################################################\n");
	printf("## 语音合成(Text To Speech,TTS)技术能够自动将任意文字实时转换为连续的 ##\n");
	printf("## 自然语音,是一种能够在任何时间、任何地点,向任何人提供语音信息服务的  ##\n");
	printf("## 高效便捷手段,非常符合信息时代海量数据、动态更新和个性化查询的需求。  ##\n");
	printf("###########################################################################\n\n");

向屏幕上输出相关信息

ret = text_to_speech(text, filename, session_begin_params);
	if (MSP_SUCCESS != ret)
	{
		printf("text_to_speech failed, error code: %d.\n", ret);
	}
	printf("合成完毕\n");

调用语音合成函数,传入的3个参数分别为要合成的文本,合成后wav音频文件的文件名,以及前面提到的合成参数,ret变量接收函数返回值,若失败则打印错误代码并退出

MSPLogout();

退出登录函数,包含在头文件msp_cmn.h中

语音合成函数int text_to_speech(const char* src_text, const char* des_path, const char* params)

	int          ret          = -1;
	FILE*        fp           = NULL;
	const char*  sessionID    = NULL;
	unsigned int audio_len    = 0;
	wave_pcm_hdr wav_hdr      = default_wav_hdr;
	int          synth_status = MSP_TTS_FLAG_STILL_HAVE_DATA;

ret用来接收返回值
FILE fp文件指针用来创建音频文件

	if (NULL == src_text || NULL == des_path)
	{
		printf("params is error!\n");
		return ret;
	}
	fp = fopen(des_path, "wb");
	if (NULL == fp)
	{
		printf("open %s error.\n", des_path);
		return ret;
	}

若合成文本或者音频文件路径为空,则提示参数错误并退出
创建并打开音频文件,若创建失败,则提示打开文件失败

/* 开始合成 */
	sessionID = QTTSSessionBegin(params, &ret);
	if (MSP_SUCCESS != ret)
	{
		printf("QTTSSessionBegin failed, error code: %d.\n", ret);
		fclose(fp);
		return ret;
	}
	ret = QTTSTextPut(sessionID, src_text, (unsigned int)strlen(src_text), NULL);
	if (MSP_SUCCESS != ret)
	{
		printf("QTTSTextPut failed, error code: %d.\n",ret);
		QTTSSessionEnd(sessionID, "TextPutError");
		fclose(fp);
		return ret;
	}
	printf("正在合成 ...\n");
	fwrite(&wav_hdr, sizeof(wav_hdr) ,1, fp); //添加wav音频头,使用采样率为16000
	while (1) 
	{
		/* 获取合成音频 */
		const void* data = QTTSAudioGet(sessionID, &audio_len, &synth_status, &ret);
		if (MSP_SUCCESS != ret)
			break;
		if (NULL != data)
		{
			fwrite(data, audio_len, 1, fp);
		    wav_hdr.data_size += audio_len; //计算data_size大小
		}
		if (MSP_TTS_FLAG_DATA_END == synth_status)
			break;
		printf(">");
		Sleep(150); //防止频繁占用CPU
	}
	printf("\n");
	if (MSP_SUCCESS != ret)
	{
		printf("QTTSAudioGet failed, error code: %d.\n",ret);
		QTTSSessionEnd(sessionID, "AudioGetError");
		fclose(fp);
		return ret;
	}
	/* 修正wav文件头数据的大小 */
	wav_hdr.size_8 += wav_hdr.data_size + (sizeof(wav_hdr) - 8);
	
	/* 将修正过的数据写回文件头部,音频文件为wav格式 */
	fseek(fp, 4, 0);
	fwrite(&wav_hdr.size_8,sizeof(wav_hdr.size_8), 1, fp); //写入size_8的值
	fseek(fp, 40, 0); //将文件指针偏移到存储data_size值的位置
	fwrite(&wav_hdr.data_size,sizeof(wav_hdr.data_size), 1, fp); //写入data_size的值
	fclose(fp);
	fp = NULL;
	/* 合成完毕 */
	ret = QTTSSessionEnd(sessionID, "Normal");
	if (MSP_SUCCESS != ret)
	{
		printf("QTTSSessionEnd failed, error code: %d.\n",ret);
	}

	return ret;
}

以上代码为具体的语音合成过程,暂时没有能力看懂qaq

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要使用Java Spring Boot接入科大讯飞(iFlytek)TTS语音合成服务,首先需要完成以下步骤: 1. 在科大讯飞开放平台注册并创建应用,获取相应的AppID、API Key和API Secret。 2. 搭建Spring Boot项目并配置所需的依赖项。可以使用Maven或Gradle构建工具来管理依赖。 3. 创建一个Restful API接口来接收待合成的文本,并返回合成语音文件。 4. 在Spring Boot项目中集成科大讯飞SDK,引入相应的依赖项,在应用启动时初始化SDK并进行身份验证。 5. 在接口中调用科大讯飞TTS接口,传入待合成的文本,并设置合成参数,如语速、音量、音调等。 6. 将返回的语音数据保存为音频文件,可选地可以将文件保存到本地或存储到云存储服务。 7. 将合成的语音文件返回给客户端,客户端可以进行播放或其他操作。 以下是一个简单的Java Spring Boot代码示例: 1. 在pom.xml添加科大讯飞SDK的依赖项: ```xml <dependency> <groupId>com.iflytek.sdk</groupId> <artifactId>tts</artifactId> <version>1.0.0</version> </dependency> ``` 2. 创建一个RestController,处理合成语音的请求: ```java @RestController public class TtsController { @Autowired private TtsService ttsService; @PostMapping("/synthesize") public ResponseEntity<byte[]> synthesize(@RequestBody String text) { // 调用TTS服务合成语音 byte[] audioData = ttsService.synthesize(text); HttpHeaders headers = new HttpHeaders(); headers.setContentType(MediaType.APPLICATION_OCTET_STREAM); headers.setContentDispositionFormData("attachment", "output.mp3"); return new ResponseEntity<>(audioData, headers, HttpStatus.OK); } } ``` 3. 创建一个TtsService,用于集成科大讯飞TTS SDK并进行合成: ```java @Service public class TtsService { private static final String APP_ID = "your_app_id"; private static final String API_KEY = "your_api_key"; private static final String API_SECRET = "your_api_serect"; private TtsClient ttsClient; public TtsService() { // 初始化和身份验证 ttsClient = new TtsClient(APP_ID, API_KEY, API_SECRET); } public byte[] synthesize(String text) { // 设置合成参数 ttsClient.setSpeed(5); ttsClient.setVolume(6); ttsClient.setPitch(7); // 调用合成接口 byte[] audioData = ttsClient.synthesize(text); return audioData; } } ``` 以上是一个简单的例子,具体的实现可能会涉及更多的功能和复杂度。在实际开发中,还需要处理异常情况、进行日志记录等。此外,为了提高性能和安全性,可以考虑将合成请求异步处理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值