UE5语音识别和语音合成-阿里云智能语音-短视频-翻译-文章-AI角色等

最新推荐文章于 2024-04-28 18:07:13 发布

人宅

最新推荐文章于 2024-04-28 18:07:13 发布

阅读量964

点赞数

分类专栏： renzhai AboutCG C++ 文章标签：语音识别人工智能

本文链接：https://blog.csdn.net/qq_23369807/article/details/130299440

版权

renzhai 同时被 3 个专栏收录

39 篇文章 5 订阅

订阅专栏

C++

30 篇文章 3 订阅

订阅专栏

AboutCG

16 篇文章 1 订阅

订阅专栏

UE5智能语音
哈喽，大家好，我叫人宅，很高兴和大家一起分享本套课程，阿里云智能语音UE5版本开发。阿里云智能语音一共分为语音合成，语音识别，什么是语音合成，它可以将您的文字转化成您设定的任何声音，并且播放出来。什么是语音识别，可以将您的音频或者是您的wav格式的本地语音通过阿里云生成具体文字，同样也支持实时翻译，比如翻译为英文，日文，俄文等。

本套课程是一套综合实战课程，我们不是只给大家讲解如何使用阿里云智能语音，而是封装它。封装阿里云智能语音sdk并不简单，里面坑不少，我们会带着大家一一解决，比如UE5打包阿里云SDK最常见的bug,libcur冲突，这个应该怎么解决。本套课程您可以学习到那些呢？

如何整合阿里云SDK语音识别语音合成，而且我们还会讲解如何通过HTTP协议接通语音合成，如何通过C++实现录音，如何播放wav格式的音频，如何内存播放音频，并且我们还会学习到如何使用UE5多线程技术，异步技术来高效封装我们的库。如果您正在封装类似的库，苦于无从下手，那么这套课程很适合您，接下来我们将详细介绍本套课程的具体内容。

第一章 UE5接通阿里云智能语音Nls库

本章将会讲解如何接通Nls库到UE5,其中里面涉及到的细节，坑，如何规避，如何解决，如何通过打包自动拷贝lib和dll到项目中。

第二章 Nls日志与配置

本章我们将会通过我们接入好的库自架构一个配置系统，方便我们配置密钥和账户以及APPKey等重要信息，当然我们也可以通过蓝图配置。

第三章实时语音框架架构

本章将会架构实时语音框架，为了便于测试，我们采用读取本地文件的方式来测试实时语音。通过这一章节我们会学习什么是PCM，它内部的原理是什么，如何使用UE5多线程技术，异步策略，代理负载等知识综合实战。

第四章实时语音封装

本章承接第三章内容，对内容封装，如何并发多个音频，如何设计异步的蓝图回调，如何解决回调语音识别乱码问题等。

第五章一句话语音识别

本章将会为大家带来一句话语音识别，如何将本地的wav音频通过代码，经过阿里云，翻译成中文，如何并发识别。

第六章 Nls的语音合成封装

本章我们会带着大家一起封装Nls的自带语音合成功能，目前这个库语音合成C++版本还有一些问题，我们直面这些问题，如果我们自己封装库的时候如何避免这些问题等。

第七章动态令牌与项目打包

本章我们会讲解如何封装Nls的动态令牌，原先我们的生成采用的是手动复制，这次我们将采用动态生成，并且我们会讲解如何判定令牌是否过期，是否重新生成。并且我们还会讲解如何UE5打包，如何解决libcur与UE5冲突的问题，以后我们再封装阿里云SDK，这个问题出现频率很高。

第八章 HTTP框架架构

本章节我们会手把手建立一套简易的HTTP访问请求框架，方便我们后面使用HTTP协议。我们为什么这么做呢？原来的Nls库在语音合成部分有bug,每次下载的音频导致奔溃，所以我们将带着大家通过HTTP来自架构一个音频可下载功能。

第九章 HTTP语音合成

本章节我们会讲解如何通过HTTP来接通阿里云语音合成协议，如何POST，如何GET,如何通过HTTP轮询阿里云智能语音服务器，如何下载资源到本地等。当然我们还会讲解Json解析等知识。

第十章如何播放wav格式的声音

本章我们将会封装跨平台播放架构，如何播放wav格式的音频，比如我们在做短视频的时候，可以直接将我们的文字发送给阿里云，它会帮我们生成一段音频，这段音频我们可以通过内存播放也可以通过本地文件播放。

第十一章麦克风录音

本章我们会讲解如何架构跨平台声音采集系统，如何采集麦克风声音，本章内容将为实时语音做准备。

第十二章 PCM转WAV格式

本章将手把手一起写一个PCM转Wav格式的方法，我们通过麦克风将声音采集为PCM后是没有办法通过播放器播放，这个时候就需要转换策略。本章会详细讲解wav格式，如何将波数据转为wav等。

第十三章实时语音

本章会将第十一章的内容合并到我们的实时语音系统，当我们开启实时传送的时候，可以将语音动态发送到阿里云智能语音，动态识别生成文字，整个过程都是实时的。除此之外我们还会讲解如何录制音频数据，并且保存到本地磁盘等内容。

学完本套课程您将会掌握第三方库如何高效封装，如何使用HTTP协议和服务器交互，什么是语音识别，什么是语音合成，并且理解PCM格式以及WAV格式，也知道如何封装跨平台插件方法，如何播放wav格式数据，如何录制wav格式的数据到磁盘。如果您想开发短视频制作软件方向或者是数字人方向，或者是实时翻译软件方向，卡在阿里云智能语音库整合上，无法短时间内解决各种冲突，那么这套课程非常适您。我们知道授人以鱼不如授人以渔，把真正的方法交给大家，以后再整合其他库将变得得心应手。