研一上四篇汇报论文

一、MULTI-LABEL MUSIC GENRE CLASSIFICATION FROM AUDIO, TEXT,AND IMAGES USING DEEP FEATURES

论文用audio、text(评论)、image(封面照片)三方面来对音乐流派(Music genres)进行多标签分类,即可以把一个音乐专辑分为POP、ROCK等多个类。

论文在其数据集(MUMU)以及他使用的AUC评价指标(ROC曲线下的面积,不在乎查全或者查准,看的使一般情况),说明了image来对音乐分类效果是三个中最差的,但是用他融合其他任意两个模型都可以提升效果。三个融合效果是最好的。

二、SUPERVISED MONAURAL SOURCE SEPARATION BASED ON AUTOENCODERS

论文用自编码器对于进行单声道分离,AESS (AutoEncoder based Source Separation)
论文还使用了稀疏非负矩阵(sparse NMF)与AE在Bach 10 dataset(consisting of ten monaural recordings of four instruments: violin,clarinet, saxophone and bassoon)(8:1:1)下进行比较,在大多数情况下,AE的信号失真比(signal-to-distortion ratio,SDR)更大。

三、CONVOLUTIONAL NEURAL NETWORKS FOR REAL-TIME BEAT TRACKING: A DANCING ROBOT APPLICATION

用CNN对节拍追踪(Beat Tracking),所提出的方法嵌入在舞蹈NAO机器人应用中,舞蹈动作与节拍跟踪输出同步,让机器人跳舞。

四、Learning Transferable Features for Speech Emotion Recognition

论文用一种卷积网络提取各个领域的共享特征(domain-shared),LSTM提取时域特征然后进行分类。通过大众训练集上训练在到小的数据集进行微调完成特定任务(论文上采取微调方法有很多,冻结层不一样)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值