摘要:基于内容的音乐分析是计算机音乐智能处理领域的重要分支,其中音符的分割和识别是关键技术之一。本文首先根据音级轮廓特征(PCP),对音乐进行特征提取,将帧集通过行列式点过程(DPP)进行建模,最后根据最大后验概率估计(MAP)选出帧子集,从而实现音符的分割。DPP将复杂的概率计算转换为简单的行列式计算,减少了计算量。在钢琴音乐片段多音符的的识别中,得到了67.3%的正确率,解决了多音符的切分识别难题。本文引用地址:http://www.eepw.com.cn/article/201604/290272.htm
1 引言
对音符进行识别是音乐信号分析处理领域中重要的研究内容。音符识别技术在音乐数据库的建立、管理和索引中具有重要的应用价值,如何准确地进行音符分割是检索系统中较困难的问题[1]。音符识别技术可以便捷地实现乐谱的计算机录入,在音乐内容检索、计算机辅助钢琴教学、音乐作品数字化等领域具有广阔的应用前景。随着计算机多媒体技术、数字信号处理技术等不断发展,越来越多的音乐作品进入数字化的轨道,基于计算机的音乐识别、乐谱跟踪、音乐分类等一系列课题也被越来越多的学者关注。现有音符分割的方法大多是依据能量分割。文献[2]提出了使用声音的频谱参数,利用计算音符的自相似性进行音符分割。文献[3]凭借能量特征确定哼唱的起点和终点,通过设定动态门限的方法实现音符分割。近些年,国内学者的研究主要集中在和弦的识别以及单音符的识别上,对于多音符的识别较为欠缺。本文将运用DPP识别模型,对多音符进行分割识别。
行列式点过程模型(DPP)在图片分割、文本摘要和商品推荐系统中都有成功的应用。DPP将复杂的概率计算转换成简单的行列式的计算,减少了计算量,提高了运行速度,并且很好地解决了负相关的问题[4]。本文首先将音乐信号进行PCP特征提取,在识别阶段运用DPP进行建模,并用300段标记好的训练集对模型参数进行训练,从而完成音符的自动分割识别。
2 DPP音符切分
2.1 PCP特征提取
音级轮廓特征(PCP)是音乐信息检索中广泛使用的一种信号特征。PCP将频谱重建为音级谱,将音乐信号能量映射到12个音级上。
PCP特征计算:
第1步:分帧处理,将时域离散信号分为重叠的帧。
(1)
k表示频率坐标,n表示短时傅里叶变换窗口的中心,w(m)为汉明窗。
第2步:频谱映射,强XSTFT(k,n)映射为一个十二维的向量p(k),每维表征了一个半音级的强度。映射公式为:
(2)