0引言数字音乐随着现代网络的发展规模不断得以提升,因此音乐检索技术(MIR)受到了更为广泛的关注,而音乐情感分类作为音乐诸多相关领域中最为基本的问题,其研究受到了越来越高的重视。针对音乐情感分类而言,最为普遍的一种方法即对从音乐中提取出来的声学特征进行分析后得出情感的分类结果。但是通常仅使用该单一模态所达到的分类效果并不尽人意。歌词是音乐歌曲的文字表达部分,其中包含了歌曲作者的情感寄托,所以对歌词的分析也会对音乐的情感分类起到一定的辅助效果[1-2]。此外,在基于音乐内容的分类器的选择中,诸如k-NN、SVM、贝叶斯等一些浅层分类器[3]是音乐情感分类的常用分类器,还有人工神经网络、回归分析、自组织映射等也普遍应用于该领域[4],但是这些分类器所达到的分类效果并不能很好的满足人们的正常需求。针对以上问题,本文提出了一种基于深度置信网络(DBN)的双模态融合的音乐情感分类算法,以此达到提高分类准确率的效果。多模态音乐情感分类的框架如图1所示。1音乐情感模型在音乐情感研究中最为前提的工作是首先要对情感进行合理的分类。一般常见的有Hevner和两种Thayer音乐情感模型。Hevner情感模型是一种离散类别模型[5]。该模型共选用了67个形容词来进行音乐情感的描述。这些形容词根据情绪之间的差别被分为了庄严的、如梦的、宁静的、悲伤的、优雅的、快乐的、激动的、有力的八大类,并且被嵌套到了一个环状结构,从而构成了一个具有八大类情感的情感环模型。图1多模态音乐情感分类框架图Thayer情感模型是一个二维情感模型[6](如图2所示),横坐标为压力(Stress),纵坐标为能量(En-ergy)。根据能量从平静到充满活力、压力从快乐到焦虑,平面被平分为了四个极限区域,该四类分别为生机勃勃、焦虑、令人满足、沮丧。图2 Thayer二维情感模型Thayer与Hevner情感模型相比,其具有更好的平滑度,在情绪之间具有更强的过渡性,这与人类的情感过渡方式更为接近,因此本文所研究的音乐情感分类结果是在Thayer二维情感模型的基础上得出的。2音频情感特征参数在声学特征方面选用了MFCC和RASTAR-PLP[7]两类底层声学特征来完成对音乐的节奏、音高和音色的描述。(1)梅尔频率倒谱系数(MFCC)。对于MFCC而言,其更加的符合人耳的感知能力和声音频率之间的相互关系,并且具有相对较好的强抗噪性、高识别率的特点,所以经常被应用于音乐情感识别领域;(2)感知线性预测倒谱系数(PLPCC)。因为PLPCC特征在提取过程中,将临界频带以及耳蜗的分频特征作为首要条件进行了充分的考虑,所以良好的语音识别性能为其一大特性。MFCC和PLP的提取过程是在MATLAB环境下实现,并通过RASTAMAT工具箱对音乐片段进行音频特征的提取,其音频特征构成如表1所示。表1音频特征构成音频特征MFCC PLP频谱系数PLP倒谱系数特征维数(均值) 20 21 9特征维数(方差) 20 21 93歌词情感特征参数歌词中的语义会蕴含着非常丰富的情感信息,我们首先要对歌词进行预处理,然后对其进行重度量化,再进行特征提取等操作。3. 1歌词的VSM表示为了能够使计算机对文本进行高效的处理,必须能够将文本以一种理想的形式化表示方法展示出来,一般采用向量空间模型(VSM)[8]。其基本思想是一个文档可以看成是n维空间中的一个向量。先假设一个共包含n篇文档的文本集合,在文本中共有m个词语得到使用,以此构造出一个“词-文档”矩阵。Xm,n=[xij]=(d1,d2,…,dn,)=(t1,t2,…,tn)T。其中
matlab 音乐分类 thayer,基于DBN的多模态音乐情感分类研究
最新推荐文章于 2022-03-09 12:02:54 发布