Whether To Pretrain DNN or Not?: An Empirical Analysis for Voice Conversion

最新推荐文章于 2021-05-11 15:58:54 发布

林林宋

最新推荐文章于 2021-05-11 15:58:54 发布

阅读量174

点赞数

分类专栏： paper笔记

版权

162 篇文章 24 订阅

订阅专栏

会议：2019 interspeech
作者：Nirmesh J. Shah
单位：DA-IICT, Gandhinagar, India

在数据有限的情况下，vc model会过拟合，因此大部分的方法是pre-training再finetune。作者希望探究通过不需要预训练的方法同时避免过拟合。

深度学习中，预训练的方法逐渐被better activation function and regularization methods替代。
contribution:

讲了DNN训练的几个部分。。。。

drop out 解决过拟合 drop_out_rate = 0.3
激活函数：ReLU, LReLU, and ELU的优点是他们不会有梯度消失的问题，并且收敛速度快，泛化性好。
SGD的学习速率保持不变，Adam会根据梯度下降的速度调整学习率
初始化：如果权重过小，输入在各层之间的变化很小，会导致输入数据没有起作用。如果权重过大，输入在各层之间的变化很大，输入爆炸。Xavier initializer保证各层权重的变化是一致的，保持0均值，1/N方差的高斯分布（n是输入神经元数目）。

基于平行数据，DTW的算法实现的，说话人句子数n = 10, 20, 40, 100, and150.
分别在VCC 2016和VCC2018上做了实验对比，主管评测分数一般。
在这里插入图片描述

postscript
这篇文章一开始看就有点不舒服的感觉，看完发现前2页半全是在普及深度学习的基础知识。。。。
自己写论文要注意创新点，避免这种看起来非常工程化的工作量的堆砌。

关注

专栏目录