研一上四篇汇报论文

最新推荐文章于 2022-07-01 19:32:27 发布

FQ_G

最新推荐文章于 2022-07-01 19:32:27 发布

阅读量452

点赞数

分类专栏：论文文章标签：音频论文

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33266320/article/details/79842760

版权

论文专栏收录该内容

12 篇文章 0 订阅

订阅专栏

一、MULTI-LABEL MUSIC GENRE CLASSIFICATION FROM AUDIO, TEXT,AND IMAGES USING DEEP FEATURES

论文用audio、text（评论）、image（封面照片）三方面来对音乐流派（Music genres）进行多标签分类，即可以把一个音乐专辑分为POP、ROCK等多个类。

论文在其数据集（MUMU）以及他使用的AUC评价指标（ROC曲线下的面积，不在乎查全或者查准，看的使一般情况），说明了image来对音乐分类效果是三个中最差的，但是用他融合其他任意两个模型都可以提升效果。三个融合效果是最好的。

二、SUPERVISED MONAURAL SOURCE SEPARATION BASED ON AUTOENCODERS

论文用自编码器对于进行单声道分离，AESS (AutoEncoder based Source Separation)
论文还使用了稀疏非负矩阵（sparse NMF）与AE在Bach 10 dataset（consisting of ten monaural recordings of four instruments: violin,clarinet, saxophone and bassoon）（8：1：1）下进行比较，在大多数情况下，AE的信号失真比（signal-to-distortion ratio，SDR）更大。

三、CONVOLUTIONAL NEURAL NETWORKS FOR REAL-TIME BEAT TRACKING: A DANCING ROBOT APPLICATION

用CNN对节拍追踪（Beat Tracking）,所提出的方法嵌入在舞蹈NAO机器人应用中，舞蹈动作与节拍跟踪输出同步，让机器人跳舞。

四、Learning Transferable Features for Speech Emotion Recognition

论文用一种卷积网络提取各个领域的共享特征（domain-shared），LSTM提取时域特征然后进行分类。通过大众训练集上训练在到小的数据集进行微调完成特定任务（论文上采取微调方法有很多，冻结层不一样）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。