音频分类革命:如何用Hugging Face实现前沿的音频频谱图变换器
音频频谱图变换器(Audio Spectrogram Transformer,简称AST)是由Yuan Gong, Yu-An Chung, James Glass提出的一个模型。它通过将音频转换为图像(即频谱图)的方式,使用视觉变换器(Vision Transformer)来处理音频数据,并在音频分类任务上取得了最先进的结果。在过去的十年里,卷积神经网络(CNN)被广泛应用于端到端的音频分类模型中,这类模型旨在学习从音频频谱图到对应标签的直接映射。
复制链接