ASR(自动语音识别)任务中的LLM(大语言模型)
用于在训练阶段提供更多的文本数据使解码器可以更好地被训练,在推理阶段不再被使用;在训练期间,其他部分保持不动,仅训练此部分从而得到一个。编码器的隐状态参与计算,利用大语言模型的能力得到更好的解码结果。:由三部分组成,分别是提示文本表征,输入语音表征以及检索到的。模型进行深度结合,统一语音和文本的编码空间或者直接利用。:根据过滤后的语音表征从数据库中查找与该段语音相关的。处理语音序列,并使用卷积网络对其进行下采样;的效果,本文在训练时设计了多种提示词;:手工设计的提示词,为了达到。
原创
2023-08-18 17:48:37 ·
3923 阅读 ·
0 评论