一、MULTI-LABEL MUSIC GENRE CLASSIFICATION FROM AUDIO, TEXT,AND IMAGES USING DEEP FEATURES
论文用audio、text(评论)、image(封面照片)三方面来对音乐流派(Music genres)进行多标签分类,即可以把一个音乐专辑分为POP、ROCK等多个类。
论文在其数据集(MUMU)以及他使用的AUC评价指标(ROC曲线下的面积,不在乎查全或者查准,看的使一般情况),说明了image来对音乐分类效果是三个中最差的,但是用他融合其他任意两个模型都可以提升效果。三个融合效果是最好的。
二、SUPERVISED MONAURAL SOURCE SEPARATION BASED ON AUTOENCODERS
论文用自编码器对于进行单声道分离,AESS (AutoEncoder based Source Separation)
论文还使用了稀疏非负矩阵(sparse NMF)与AE在Bach 10 dataset(consisting of ten monaural recordings of four instruments: violin,clarinet, saxophone and bassoon)(8:1:1)下进行比较,在大多数情况下,AE的信号失真比(signal-to-distortion ratio,SDR)更大。
论文还使用了稀疏非负矩阵(sparse NMF)与AE在Bach 10 dataset(consisting of ten monaural recordings of four instruments: violin,clarinet, saxophone and bassoon)(8:1:1)下进行比较,在大多数情况下,AE的信号失真比(signal-to-distortion ratio,SDR)更大。
三、CONVOLUTIONAL NEURAL NETWORKS FOR REAL-TIME BEAT TRACKING: A DANCING ROBOT APPLICATION
用CNN对节拍追踪(Beat Tracking),所提出的方法嵌入在舞蹈NAO机器人应用中,舞蹈动作与节拍跟踪输出同步,让机器人跳舞。
四、Learning Transferable Features for Speech Emotion Recognition
论文用一种卷积网络提取各个领域的共享特征(domain-shared),LSTM提取时域特征然后进行分类。通过大众训练集上训练在到小的数据集进行微调完成特定任务(论文上采取微调方法有很多,冻结层不一样)