![](https://img-blog.csdnimg.cn/20201109190659725.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
语音研究
文章平均质量分 58
语音研究相关资料
不卷CV了
热爱历史的工科狗
展开
-
RMS简介
RMS(均方根)简介 RMS就是均方根。在数据统计分析中,将所有值平方求和,求其均值,再开平方,就得到均方根值。在物理学中,我们常用均方根值来分析噪声。同时,它也是定义AC波的有效电压或电流的一种最普遍的数学方法。 在物理学中,除讨论过电流在一个周期上的平均值外,还常考虑电流有效值,周期性非恒定电流的有效值规定为:当在其一个周期内,在负载电阻R上消耗的平均功率等于取固定值的直流电流在R上消耗的功率时,称这个值为有效值。 均方根值是对信号波形或的平方求平均值,均方根值也称有效值,它可以指示信号发送原创 2021-08-03 10:35:45 · 16509 阅读 · 0 评论 -
Pytorch自动混合精度(AMP)介绍与使用
Pytorch自动混合精度(AMP)介绍与使用背景:pytorch从1.6版本开始,已经内置了torch.cuda.amp,采用自动混合精度训练就不需要加载第三方NVIDIA的apex库了。本文主要从三个方面来介绍AMP:一.什么是AMP?二.为什么要使用AMP?三.如何使用AMP?四. 注意事项正文:一.什么是AMP?默认情况下,大多数深度学习框架都采用32位浮点算法进行训练。2017年,NVIDIA研究了一种用于混合精度训练的方法,该方法在训练网络时将单精度(FP32)与半精度(FP1转载 2021-07-25 10:51:31 · 8898 阅读 · 0 评论 -
Tacotron以及Tacotron2详解
Tacotron以及Tacotron2详解概述 Tacotron模型是首个真正意义上的端到端TTS深度神经网络模型。与传统语音合成相比,它没有复杂的语音学和声学特征模块,而是仅用<文本序列,语音声谱>配对数据集对神经网络进行训练,因此简化了很多流程。然后Tacotron使用Griffin-Lim算法对网络预测的幅度谱进行相位估计,再接一个短时傅里叶(Short-Time Fourier Transform,STFT)逆变换,实现端到端语音合成的功能。Tacotron的总体架构如原创 2021-06-30 11:31:20 · 9111 阅读 · 1 评论 -
使用YIN算法提取音频的F0 Contours
使用YIN算法提取音频的F0 Contours的代码实现简介 F0 Contours, 全称为Fundamental Frequency Contours, 它与Pitch Contours所指相同。 基频提取(pitch estimation, pitch tracking)在声音处理中有广泛的应用。它最直接的应用,是用来识别音乐的旋律。它也可以用于语音处理,比如辅助带声调语言(如汉语)的语音识别,以及识别语音中的情感。 YIN算法是基频提取的算法之一。其名称取自「阴阳」之「阴」原创 2021-04-21 15:56:58 · 3880 阅读 · 2 评论 -
Grid Search简介
Grid Search简介 跟人聊天时听到Grid Search,一开始还以为误以为是Beam Search了,后来查阅了一下才了解了它的意思。 Grid Search是一种调参的手段,即穷举,穷举所有的超参组合。 当你对决策树调参,如果只对一个超参优化,比如树的最大深度,尝试[3, 5, 7]。那么可以表示为 如果你还想对分裂标准进行调参,分别试试gini和entropy,那么就相当要对2×3=6组参数进行尝试。如下图 所以这就是为什么叫做gird search原创 2021-04-09 15:53:15 · 5176 阅读 · 3 评论 -
什么是F0 Contours
什么是F0 Contours F0 Contours, 全称为Fundamental Frequency Contours, 它与Pitch Contours所指相同。 音高(pitch)是声音的三大属性(音量、音高、音色)之一。除去个别极端情况,音高是由声音的基频(fundamental frequency, 简记为f0f_0f0)决定的,因此在文献中「音高」与「基频」两个词常常混用。由有规律的振动发出的声音,一般都会有基频,这样的声音包括语音中的元音与浊辅音,以及能演奏旋律的乐器发出的原创 2021-04-08 10:44:43 · 1826 阅读 · 0 评论 -
Attention机制学习笔记
Attention机制学习笔记Attention机制与Self-Attention机制的理解与区别:Attention机制与self-Attention机制常见的几种Attention方法以及对Attention计算方法的总结:https://www.zhihu.com/question/68482809/answer/1742071699Attention设计的套路:Attention Model(mechanism) 的 套路...原创 2021-04-07 08:50:38 · 253 阅读 · 0 评论 -
正交变换(傅里叶变换、Z变换)
正交变换(傅里叶变换、Z变换) 信号分解方法多种多样,我们可将信号分解为直流分量+交流分量、偶分量+奇分量、实部分量+虚部分量、脉冲分量、正交分量等多种形式。其中一个较复杂而又有重要意义的分解方法便是将信号分解为正交分量,我们把这个过程称作:信号的正交分解(正交变换)。 将信号正交分解之后,可以用于:方便处理便于抽取特性数据压缩 首先有一个问题——什么是正交? 在线性代数中我们了解过,向量的正交指的是a⃗⋅b⃗=0\vec{a}\cdot\vec{b} = 0a⋅b=0—原创 2021-04-02 08:33:34 · 11965 阅读 · 3 评论 -
深度学习中的优化方法(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam, Radam)
深度学习中的优化方法(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam, Radam)SGD,Adagrad,Adadelta,Adam,Adamax,Nadam: https://zhuanlan.zhihu.com/p/22252270提供了不需要可调参数的动态warmup的Radam: https://zhuanlan.zhihu.com/p/85911013...原创 2021-03-28 11:15:59 · 678 阅读 · 0 评论 -
Benchmark和Baseline的含义与区别
Benchmark和Baseline的含义与区别原文地址:https://www.zhihu.com/question/28823373Benchmark和baseline都有性能比较的意思。先看看字典定义。benchmark:N-COUNT A benchmark is something whose quality or quantity is known and which can therefore be used as a standard with which other things转载 2021-03-14 18:25:41 · 760 阅读 · 0 评论 -
linux上安装Anaconda并创建一个虚拟环境
linux上安装Anaconda并创建一个虚拟环境原文链接:https://zhuanlan.zhihu.com/p/697997070、准备工作:用conda创建虚拟环境之前,需要先安装anaconda(此步是为了用下面的conda命令,不是为了用python)下载安装包(https://www.anaconda.com/distribution/),并放到服务器上,cd到服务器上安装包所在位置,用以下命令安装:bash Anaconda3-2019.03-Linux-x86_64.sh (An转载 2021-01-05 23:45:49 · 10250 阅读 · 0 评论 -
Tacotron入门
Tacotron入门 Tacotron是TTS领域非常著名的一个模型(日常被当做对比参照物),正好毕设的Flowtron也是在它的基础上进行的改进,因此我也特地学习了一下Tacotron这个模型。 以下是相关的学习资料: Tacotron原论文:TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS 知乎上一篇写得不错的Tacotron概述:Tacotron&Tacotron2——基于深度学习的端到端语音合成模型...原创 2020-11-09 10:00:53 · 682 阅读 · 0 评论 -
Embedding的理解
Embedding的理解 我Embedding作用总是忘…因此在此记录辅助理解。 原文地址:怎么形象理解embedding这个概念?什么是Embedding? Embedding(嵌入)是拓扑学里面的词,在深度学习领域经常和Manifold(流形)搭配使用。 可以用几个例子来说明,比如三维空间的球体是一个二维流形嵌入在三维空间(2D manifold embedded in 3D space)。之所以说他是一个二维流形,是因为球上的任意一个点只需要用一个二维的经纬度来表达就可以了。转载 2020-10-28 22:36:01 · 1073 阅读 · 0 评论 -
Normalizing Flows学习
Normalizing Flows学习 毕设设计的论文中主要运用了Normalizing Flows这一方法。其作为一种有效的生成模型,虽然效果不错,但是没有VAE和GAN常见。我也是第一次了解到这个模型,因此查阅了一些资料对其进行学习。相关资料 下面是学习过程中查阅到的较为有效的学习资料,在此予以记录: 介绍相关前置知识与标准化流的定义和基础的:Normalizing Flows入门(上) 构建标准化流的一些方法:Normalizing Flows入门(中) ...原创 2020-10-27 15:25:49 · 3048 阅读 · 1 评论 -
Linux环境下kaldi的安装及测试
Linux环境下kaldi的安装及测试 Kaldi是当前最流行的开源语音识别工具(Toolkit),它使用WFST来实现解码算法。Kaldi的主要代码是C++编写,在此之上使用bash和python脚本做了一些工具。 在安装之前,需要注意的是,kaldi大小约为24GB,若你使用的是虚拟机且磁盘空间不够,可以参考这篇文章VMware虚拟机扩展Ubuntu系统磁盘空间,事先扩充磁盘空间。Linux环境配置安装前需要对你的Linux进行配置,你需要安装的软件有:apt-getsubversi原创 2020-10-23 09:10:09 · 2171 阅读 · 3 评论 -
STFT和声谱图,梅尔频谱(Mel Bank Features)与梅尔倒谱(MFCCs)
最近读论文涉及到mel-spectrogram,虽然之前视听觉处理课上也有提到过,但发现我并不是十分了解。 并且,不管是用传统的GMM模型,还是用机器学习中的SVM或神经网络模型,提取声音特征都是第一步。梅尔频谱和梅尔倒谱就是使用非常广泛的声音特征形式。 通过这篇文章,我对此有了一定的了解,在此记录:STFT和声谱图,梅尔频谱(Mel Bank Features)与梅尔倒谱(MFCCs)...转载 2020-10-20 21:30:02 · 1188 阅读 · 0 评论 -
Transformer入门
上周导师让我可以先了解一下Transformer的模型,这周花了两三天时间查阅了相关资料以及论文,对Transformer有了一个大概的了解。(相关的代码还没看,后续会进一步了解一下相关代码)附上一个自认为相关博客里详解Transformer讲的最好的一篇:图解Transformer以及Transformer的原论文:Attention is all you need...原创 2020-09-23 22:15:57 · 829 阅读 · 0 评论