一、Qwen-Audio概述
一言以蔽之:论文《Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models》提出了一条完整的“音频-语言”技术路线:以 Whisper-Large-v2 为 640 M 参数的音频编码器,串接 7.7 B 参数的 Qwen-7B 解码式语言模型,通过层次化标签 (hierarchical tags) 的多任务预训练和少量指令微调,统一处理 30 + 类任务、4 大类音频、8 种语言,在 12 项基准上零微调即超越同类系统,并衍生出支持多轮语音对话的 Qwen-Audio-Chat。(arXiv, arXiv, Hugging Face)
核心贡献与创新
贡献 | 说明 | 引文 |
---|