paper list

记录看过的论文,日常更新…

论文笔记:

论文时间类型code
《A Survey on Deep Learning for Named Entity Recognition》2018NER

2019年2月:

论文时间类型code
《The GTZAN dataset: Its contents, its faults, their effects on evaluation, and its future use》2013声音分类
《MODIFIED AIS-BASED CLASSIFIER FOR MUSIC GENRE CLASSIFICATION》2011声音分类
《Learning to Recognize Musical Genre from Audio》2018声音分类Github

2019年1月:

论文时间类型code
《auDeep: Unsupervised Learning of Representations from Audio with Deep Recurrent Neural Networks》2018声音分类Github
《Music Genre Classification using Machine Learning Techniques》2018声音分类Github
《CNN ARCHITECTURES FOR LARGE-SCALE AUDIO CLASSIFICATION》2017声音分类
《pyAudioAnalysis: An Open-Source Python Library for Audio Signal Analysis》2015音频分析Github
《Exploring different approaches for music genre classification》2012声音分类
《Dynamic Meta-Embeddings for Improved Sentence Representations》2018词向量
《Frustratingly Easy Meta-Embedding – Computing Meta-Embeddings by Averaging Source Word Embeddings》2018词向量
《Is preprocessing of text really worth your time for toxic comment classification?》2018文本分类Github
《Detection of Harassment on Web 2.0》2009文本分类

2018年12月

论文时间类型code
《Dynamic Meta-Embeddings for Improved Sentence Representations》2018词向量
《Frustratingly Easy Meta-Embedding – Computing Meta-Embeddings by Averaging Source Word Embeddings》词向量
《SemEval-2017 Task 5: Fine-Grained Sentiment Analysis on Financial Microblogs and News》情感分析
《Cyclical Learning Rates for Training Neural Networks》基础框架
《基于多特征融合的混合神经网络模型讽刺语用判别》情感分析
《Stop Word Lists in Free Open-source Software Packages》2018NLP

《The GTZAN dataset: Its contents, its faults, their effects on evaluation, and its future use》

论文对GTZAN数据集进行了详细的分析,包括他的一些问题,标签错误等等。以及使用这个数据集的论文情况,对这些论文的指标进行了比较。

《MODIFIED AIS-BASED CLASSIFIER FOR MUSIC GENRE CLASSIFICATION》

论文基于特征对音乐风格进行分类,提取传统常见的音乐特征,MFCC,过零点,频谱其他特征等等。提取一种新的份额里的算法modified immune classifier(MIC),实验结果是该算法明显优于其他方法,但有待考证。

《Learning to Recognize Musical Genre from Audio》:

举办方开放FMA数据集,举办一场AI比赛,对比赛结果和数据集进行了总结和介绍。

《Is preprocessing of text really worth your time for toxic comment classification?》

论文基于Kaggle toxic比赛,分析数据预处理对性能提升的作用。并不是所有的数据预处理都是有效的,比如去除停用词,去除标点符号,很多时候反作用。论文中给出了详细的比较,多个算法,20中基本数据预处理做法以及这20中预处理方法的组合。数据预处理并不是做的越多越好,直觉上能带来效果的做法并没有带来提升。

《CNN ARCHITECTURES FOR LARGE-SCALE AUDIO CLASSIFICATION》

论文利用CNN结构对大规模声音数据进行分类,首次将Inception和ResNet结构用于声音。论文将声音频谱作为图像处理,应用多种CV中传统的NN结构,并比较了各个结构的时间的性能。属于基于实验性的论文,并未有算法和结构上的创新。各个结构的比较如下:


在这里插入图片描述

《auDeep: Unsupervised Learning of Representations from Audio with Deep Recurrent Neural Networks》

论文给出一个无监督声音学习表示的框架auDeep,通过基于seq2seq的自编码器来实现。如下是框架的处理流程。


在这里插入图片描述

实现原理:
将声音频谱输入到多层编码RNN中,然后通过一个全连接网络,输出是另一个RNN解码器,用解码器来重构输入声音频谱。比较输入和输出的RMSE来进行优化。训练完成后的全连接层参数作为输入声音序列的表示。

《Music Genre Classification using Machine Learning Techniques》

针对Audio Set数据集,论文使用两种主要的方法进行训练然后分类,对两个模型得到的结果进行集成得到最终的结果。一种是基于频谱的深度学习方法(CNN),另一种基于传统做法,手工构造频域和时域特征,然后构建分类器进行训练,并且求出不同特征的重要性。
文章所用到的数据集:Audio Set,从YouTube中210万视频中声音,每一条10s。声音数据被划分为527类,包括乐器,演讲,车辆声音,动物声音等等。关于音乐风格分类如下:


在这里插入图片描述

为了得到音频的两个预处理操作:

  1. 下载视频,提取mp4格式的声音
  2. 将mp4格式的文件划分成wav的文件
    声音文件预处理框架:librosa
时域特征:
  1. 中心距(Central moments):信号幅度的平均值,标准差,偏度和峰度;
  2. Zero Crossing Rate(ZCR):过零点的均值和标准差;
  3. RMSE:类似信号的能量 ∑ n = 1 N ∣ x ( n ) ∣ 2 \sum_{n=1}^N{|x(n)|^2} n=1Nx(n)2
  4. Tempo:表征声音的快慢,类似每分钟的节拍;
频域特征:
  1. Mel-Frequency Cepstral Coefficients (MFCC)
  2. Chroma Features
  3. Spectral Centroid
  4. Spectral Band-width
  5. Spectral Contrast
  6. Spectral Roll-off
不同算法多个指标的比较:

在这里插入图片描述

2018年12月

《Dynamic Meta-Embeddings for Improved Sentence Representations》:

论文主要提到了,我们如何更好的利用Embedding。论文最后得出的结论是令人非常惊讶的。
正常情况下,我们一般用一个Embedding来训练模型。我们知道,将多个Embedding并联,也就是Concat能有效提升性能。论文最后得出的结果是将多个Embedding带权相加能得到更好的结果。

Embedding的使用方式:

  1. 只用一个Embedding;
  2. Embedding并联, w C A T j = [ w 1 j ; w 2 j ; . . . w n j ] wCATj = [w_{1j}; w_{2j} ;...w_{nj}] wCATj=[w1j;w2j;...wnj];
  3. DME(Dynamic Meta Embedding):对多个Embedding进行带权相加,权重由self-attention学得。
  4. Un-Weight DME:不带权重,也就是Embedding直接相加;
  5. CDME(contextualized DME):基于文章内容;

从多项实验结果来看,性能表现:CDME > Unweighted ME > Weighted ME;
DME不仅能提高性能,而且能观察NN的权重。


image.png

此为对情感分析数据集SST的训练结果,从实验结果不难看出DME的提升。但是,带权求和反而不如Un_Weight DME,所以实际操作中建议考虑不带权直接相加。

Frustratingly Easy Meta-Embedding – Computing Meta-Embeddings by Averaging Source Word Embeddings

论文主要提出averaging meta-embedding做法,并说明为什么averaging能够媲美复杂的meta-embedding算法。文章对比了将两个embedding做concat,averaging的结果要好于concat。

SemEval-2017 Task 5: Fine-Grained Sentiment Analysis on Financial Microblogs and News

细粒度情感分析在金融领域的应用,分析该项任务的意义和必要性。阐述数据集的建立过程,以及分类任务。对于不同的几个赛题,比较参赛队员所使用的模型,包括ML和DL等多种模型。

基于多特征融合的混合神经网络模型讽刺语用判别

对讽刺语,进行判别。判别一句话是讽刺还是反讽,针对的是中文语料。讨论传统模型和DL模型。传统算法,利用TfIDF和n-gram作为统计特征,然后通过一个分类器。最优结果是采用神经网络混合模型。CNN和LSTM并联。


image.png

CNN和LSTM的参数:
image.png

Stop Word Lists in Free Open-source Software Packages(2018):

论文中主要提到了现在常用的停用词。有很多开源库提供停用词,停用词一般是指不明显影响文本意思的词。但是现在的很多停用词质量参差不齐,并且存在明显的问题,而且在实际工作中(eg.文本分类)中并没有起到明显的作用,提升性能等等。文章对停用词库的建立提出几个意见。

Cyclical Learning Rates for Training Neural Networks(2017):

论文提出一种新的设置全局学习率的方法,CLR(Cyclical Learning Rate,循环学习率)。能够避免寻找最优学习率这个过程,在一个合理的区间内变化而不是单调下降。不像Adative Learning Rate,CLR不需要额外的计算。

什么是CLR:
[1]中对CLR进行了详细的讲解,主要意思也就是在(base_lr,max_lr)之间学习率循环波动,波动函数和iteration、stepsize相关。一个cycle(周期)也就是学习率从最低到最高再到最低的iteration数量。

CLR的优势:

  • 能够更快的跳出鞍点;
  • 最优的LR肯定落在最小值和最大值之间。我们确实在迭代过程中使用了最好的LR

keras实现CLR:

clr = CyclicLR(base_lr=0.001, max_lr=0.006,step_size=2000.)
model.fit(X_train, Y_train, callbacks=[clr])

如何确定max_lr和base_lr:
如[1]中所述:先跑几个epoch,并且让学习率线性增加,观察准确率的变化,从中选出合适的base 和max lr。一般差一个数量级

CLR变体:
详细内容参考[2],其实就是max_lr不断衰减的过程,不同变体衰减的方法有所不同。

  • triangular2:衰减系数 1 / 2 1/2 1/2
    每个周期后max_lr衰减为上一个周期的一半
clr = CyclicLR(base_lr=0.001,max_lr=0.006,step_size=2000.,mode='triangular2')
model.fit(X_train, Y_train, callbacks=[clr])
  • exp_range:衰减系数 g a m m a i gamma^i gammai
    指数衰减
clr = CyclicLR(base_lr=0.001, max_lr=0.006,
                    step_size=2000., mode='exp_range',
                    gamma=0.99994)
model.fit(X_train, Y_train, callbacks=[clr])

[1]https://github.com/bckenstler/CLR
[2]https://blog.csdn.net/weixin_43896398/article/details/84762886
[3]https://www.kaggle.com/hireme/fun-api-keras-f1-metric-cyclical-learning-rate/code

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

linxid

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值