基于音乐情感识别的多标签嵌入式特征选择方法

文章:Embedded Feature Selection for Multi-label Classification of Music Emotions

这篇文章主要介绍基于基于音乐情感识别的多标签嵌入式(Embedded)特征选择方法,提出了一种基于多标签的Embedded特征选择方法Multi-label Embedded Feature Selection(MEFS)。

其实本文和我在看的情感识别不大一样,这里的情感识别实际上是音乐的风格识别。


1. 背景与简介

作为一个从未接触过多标签的小白,看这篇文章之前,我心里有几大疑问:

第一,多标签的数据长什么样?

第二,多标签的训练、效果衡量是怎么做的?

第三,如何看出这个模型是embedded的?filter、wrapper和embedded有什么不同?

看完全文我知道了:

第一,多标签数据的只不过是每个样本的标签都是一个向量而已。多标签数据主要有三种统计指标:Cardinality(即每个样本平均有多少个标签)、Density(即每个样本平均拥有的标签个数/所有的标签个数)和Distinct(即不同的标签组合一共有多少种,这个可以反映标签之间的相关性)

第二,多标签的训练分类器此处没有细讲,只是在literature review里简单介绍了一下有两大类:problem transformation方法和algorithm adaptation方法。本文只是单纯地用这些分类器作为特征选择的辅助,使用了这些分类器:LEAD、MLNB、Rank-SVM和ML-KNN。

至于多标签的效果衡量,本文倒是有比较详细的介绍,包括hamming loss、one error、coverage、ranking loss、average precision。

顺便再说说多标签的特征选择方法,包括LP-chi、max和avg。

第三,这个我在下文会提到。


2. 主要贡献

提出了一种基于多标签的Embedded特征选择方法Multi-label Embedded Feature Selection(MEFS)。

关于特征选择的一些理解:

(1)Filter:就是直接筛选完指标,然后进行训练,哪个方法筛选出来的特征训练后的效果越好,就表明方法越好。

优点:计算量是线性的;

缺点:过于简单粗暴,没有考虑不同特征组合之后的效果(直接就看特征是否符合要求,符合就上,不符合就下,并没有把特征融合起来看效果)。

(2)Wrapper:就是使用一个基模型来进行多轮训练,每轮训练后,移除若干权值系数的特征,再基于新的特征集进行下一轮训练,最后选择validation error最小的作为选择的特征;

优点:能够有效提高分类器的效果;

缺点:计算复杂度太高。

(3)Embedded:就是把选取特征的过程放到训练里面了。

举例子!

比如说,要判断一个人是男生还是女生,特征有喜欢的天气、喜欢的食物、喜欢的运动、性格等等N个特征。

Filter就是直接按照某些简单粗暴的方法(比如认为男生就是勇猛的,女生就是温柔的),那么就把能表现这种勇猛或温柔的特征留下来,其他删掉,然后丢进分类器里面运行看效果。

Wrapper有前向和后向两种,这里以后向为例。比如一开始我们把所有N个特征都丢进去训练,训练结果为85%。接下来,我们丢掉“喜欢的天气”特征进行训练,效果为80%;丢掉“喜欢的食物”特征进行训练,效果为76%,丢掉“喜欢的运动”特征进行训练,效果为60%……最后,丢掉“喜欢的天气”特征时的准确率最高,那说明没有它也没啥事儿,所以就把这个特征丢掉。然后再继续往下丢……可以看到,需要训练很多次。

Embedded就比如说,仍然以后向为例,一开始我们把所有N个特征都丢进去训练,训练误差为15%,并用这个训练模型去预测这N个特征,预测误差为20%。接下来,我们不丢特征,而是一个个把特征置为同样的数。比如,把“喜欢的天气”都置为某个数,其他特征不变(这样仍有N个特征),然后用之前的训练模型去预测这N个特征,预测误差为21%,把它们的差值(1%)记录下来,这N个特征和原始的N个特征预测结果差不多。然后,把“喜欢的食物”都置为某个数,其他特征不变(这样仍有N个特征),然后用之前的训练模型去预测这N个特征,预测误差为35%,把它们的差值(15%)记录下来……最后发现“喜欢的天气”特征记录的差值是最小的,说明有这个特征和没有这个特征效果都差不多,所以就可以丢掉这个特征啦。可以看到,这里虽然做的事情有点像,但是不需要不停地训练,只要做预测就好了。

唔,这个Embedded其实就是本文的思路。



3. 实验

实验主要从三大方面进行考察:

1. 在不同分类器下每个特征选择方法选出来的hammingloss结果随特征个数的变化趋势如何;

2. 在不同分类器下每个特征选择方法在最佳特征个数时的hamming loss、average precision、coverage等指标都是多少;

3. 消耗时长对比。

其实无非就是四个维度的比较:特征数量、不同的衡量指标、不同的分类器和不同的特征选择方法。



阅读更多
想对作者说点什么?

博主推荐

换一批

没有更多推荐了,返回首页