SpeechGPT：LLM与语音技术结合落地

最新推荐文章于 2025-04-23 19:00:00 发布

nbyvy

最新推荐文章于 2025-04-23 19:00:00 发布

阅读量2.5k

点赞数 3

文章标签：语言模型

本文链接：https://blog.csdn.net/nbyvy/article/details/131472332

版权

论文SpeechGPT

cascading paradigm：直接在LLM接入TTS和ASR模型，LLM作为一个控制中枢来处理语音任务；LLM只作为内容生成器，并不参与语音维度的生成，无法构建像情绪、韵律这样的附加信息
spoken language models：将语音信号编码成离散的表征并通过LLM建模；目前的方法难以理解音频语义特征，更无法理解音频文本跨模态关系

为解决上述方法的缺陷，SpeechGPT构建跨模态指令数据集SpeechInstruct和模态链路指令数据集，并且设计三阶段训练任务。

纵观目前主要的大模型落的设计过程，无非为两个过程：预训练和指令集精调

预训练：如果基座模型的训练语料同垂域模型的任务所需预料相差特别大时，需要考虑预训练任务，扩充词表，使得模型能够理解垂域专有词的表征。预训练往往需要大量无标注的领域知识，消耗大量资源
指令集精调：指令集的精调通常为向模型输入（指令（问题），回答），建模自回归过程，数据的质量极大程度影响了模型的生成能力（https://arxiv.org/pdf/2306.11644.pdf）

如果基座模型和垂域模型任务相差巨大的话，还需要设计更多阶段的训练任务来减少二者的gap，SpeechGPT也是遵从了大模型落地的流程，设计了三阶段训练任务帮助模型更好理解文本语音的语义特征，处理跨模态任务

因此可以这样理解：预训练帮助模型学习单词，指令集精调帮助模型更好遣词造句

数据收集：结合几个大型英语ASR数据集：Gigaspeech，Common Voice，LibriSpeech得到文本-音频对
离散化：使用Hidden-unit BERT (HuBERT)将语音信号编码成离散语音特征转存失败重新上传取消，最终得到9million条文本-unit对
任务描述生成：通过GPT4，对于TTS和ASR任务分别生成100条描述
指令集构造：随机组合任务描述，用户输入，和模型输出得到指令数据集（D，U，T）

对于TTS任务，指令可以是