机器学习
文章平均质量分 62
明月几时有.
语音信号处理,机器学习,深度学习
展开
-
周志华 AdaBoost报告总结
集成学习:利用多个学习器来解决机器学习问题。按集成学习中个体学习器的生成方式来说,集成学习可分为:Sequntial methodsAdaBoostArc-x4LPBoost……Parallel methodsBaggingRandom SubspaceRandom Froests……本文主要关注AdaBoost。AdaBoost是一种集成学习算法,主要思...原创 2018-12-20 11:03:04 · 1060 阅读 · 0 评论 -
28 诊断偏差和方差:学习曲线 (28 Diagnosing bias and variance_ Learning curves)
我们已经知道一些方法可以用来估计(可避免的)偏差和方差可以导致多少误差。这些方法包括估计最佳的错误率和计算算法的训练集和开发集误差。下面我们将讨论一种可以获得更多信息的方法:绘制学习曲线。学习曲线绘制了开发集错误率和训练样本数量之间的关系。为了绘制学习曲线,需要在不同的训练集大小上运行算法。例如,如果有1000个样本,可以在100,200,300,…,1000个样本上分别运行算法。这样就可以画出...原创 2018-12-09 21:22:45 · 295 阅读 · 0 评论 -
27 降低方差的技巧(Techniques for reducing variance)
如果你的算法方差较高,可以尝试下面的技巧:**增加训练数据:**只要你可以获得大量数据和足够的算力去处理数据,这就是一种解决高方差问题最简单,最可靠的方式。**正则化(L2, L1, dropout):**这种技巧减少方差的同时,增加了偏差。**提前停止(例如,根据开发集的错误率来提前停止梯度下降):**这种技巧减少方差的同时增加的偏差。提前停止技巧很像正则化方法,一些论文作者也叫他正则化...原创 2018-12-05 17:37:29 · 6432 阅读 · 1 评论 -
26 训练集上的误差分析(Error analysis on the training set)
想要算法在开发机/测试集上表现的好,必须先在训练集上表现的好。作为对上一节讲的解决高偏差问题的补充, 我有时也遵循和在开发集上进行误差分析相似的原则,在训练集上进行误差分析。这种方式在高偏差的算法上很有用处,比如算法没有拟合训练集。例如,你要创建为app一个语言识别系统,从志愿者那里收集了很多音频片段。如果系统在训练集上表现不好,为了搞清楚训练集上算法主要的出错类型,你可能会考虑听听算法表现比...原创 2018-12-05 17:35:52 · 1760 阅读 · 0 评论 -
25 减少可避免的偏差 (Techniques for reducing avoidable bias)
如果学习算法偏差比较大,并且这些偏差是可避免的,你就可以尝试下面的技术:扩大模型: (比如增加网络层数或者神经元数量):这种技术可以让你的模型更好的拟合训练集,所以可以减少偏差。如果这种技术同时增加了方差,那么使用正则化技术可以消除增加的方差。**通过误差分析获得的灵感来修改输入特征:**假如你经过误差分析获得灵感:添加额外的特征可以帮助算法消除特定种类的误差。(具体在下一节中讨论。)...原创 2018-12-05 17:35:05 · 490 阅读 · 0 评论 -
24 偏差,方差平衡 ( Bias vs Variance)
你有可能听说过偏差方差权衡。在对学习算法做修改时,有一些方法是这样的效果:减少偏差同时增加了方差,反之亦然。这就有了偏差方差平衡。举个例子,扩大模型—添加神经元或网络层或者增加输入特征—通常会减少偏差但是却会增加方差。或者给模型添加正则化方法通常增加偏差却减小方差。在当今时代,我们通常可以获取大量数据并且可以使用大型的网络(深度学习)。因此,偏差方差平衡较少起到作用,现在更多的是减少偏差的同时...原创 2018-12-05 17:34:02 · 411 阅读 · 0 评论 -
22和最优错误率进行比较(Comparing to the optimal error rate)
在识别猫的例子中,通过“最优”分类器获得的“理想”错误率接近0%。人在看到一幅图片时总能识别出图中是不是猫,因此我们期望机器能做得和人一样好。另一些问题就比较困难了,比如建立一个语音识别系统,却发现有14%的音频片段有大量背景噪音,即使人也不能分辨说的是什么,这样即使“最优”的语音识别系统也可能有14%的错误率。假设在语音识别问题上算法性能如下:训练集损失=15%开发集损失=30%训...原创 2018-12-05 17:32:04 · 474 阅读 · 0 评论 -
21 偏差和方差的例子( Examples of Bias and Variance)
一个对猫分类的任务,理想的分类器(比如人)可能获得完美的性能。假设,算法的性能如下:训练集损失=1%开发集损失=11%算法出了什么问题?从前一节的定义知道,偏差为1%,方差为10%(=11%-1%),因此是高方差,分类器在训练集损失很小,但是在验证集上泛化性能很差,这又叫做过拟合。考虑如下情况:训练集损失=15%开发集损失=16%偏差为15%,方差为1%,分类器在不能很好的...原创 2018-12-05 17:30:37 · 1087 阅读 · 0 评论 -
12-21 组会论文阅读
1. DropBlock: A regularization method for convolutional network主要提出对于卷积网络正则化的dropout方法DropBlock,指出传统的dropout方法只能够丢弃特征图中的离散点,但是其丢弃的信息可以由附近的信息补充,不能达到正则化的效果。DropBlock能够丢弃特征图中某点附近的连续点,即丢掉一块信息,在残差网络中实验,分...原创 2018-12-21 15:51:43 · 248 阅读 · 0 评论 -
pytorch张量重复,连接,压缩,置换等常用操作
例如:import torcht1 = torch.Tensor([5,6])t2 = t1.repeat(3,5,6)print(t1)print(t2, t2.shape)#类似于平铺操作 tile,repeat参数指定了在每个维度上平铺的次数,如果张量维度个数小于repeat参数数量,#参数的前一部分为直接复制张量的个数,后面和张量维度个数相同个数的参数需要乘以张量的维度#例...原创 2019-04-30 14:42:08 · 23722 阅读 · 0 评论 -
深度学习于语音合成研究综述
深度学习于语音合成研究综述本文综述近年来深度学习用于语音合成的一些方法。WaveNet在自回归生成模型在图像和文本领域广泛应用的时候,WaveNet [4] 尝试将这些思想应用于语音领域。仿照PixelRNN (van den Oord et al., 2016)图像生成的做法, WaveNet依据之前采样点来生成下一个采样点。生成下一个采样点的模型为CNN结构。为了生成指定说话人的声音,以...转载 2019-05-21 10:43:44 · 2116 阅读 · 0 评论 -
pytorch: 计算ConvTranspose1d输出特征大小
import torchfrom torch import nnimport torch.nn.functional as Fconv1 = nn.Conv1d(1, 2, 3, padding=1)conv2 = nn.Conv1d(in_channels=2, out_channels=4, kernel_size=3, padding=1)dconv1 = nn.ConvT...原创 2019-05-10 16:22:48 · 11084 阅读 · 1 评论 -
keras和tensorflow的channel之争(你的channel是否正确?)
说到keras,封装了tensorflow,因其简单,方便,好用为吾等深度学习入门工具.tensorflow则相反,自由度高,坑多,新手上手很难,学习曲线很陡,即使老手,栽倒坑里都得骂娘(调试困难).骂娘,呵呵,你不是...原创 2019-03-02 11:50:43 · 4138 阅读 · 1 评论 -
一文看懂PatchGAN
最近看到PatchGAN很是好奇原理是什么,发现网上很多介绍的并不清楚.故墙外墙内来回几次,大概是清楚了.PatchGAN其实指的是GAN的判别器,将判别器换成了全卷积网络.这么说并不严谨,PatchGAN和普通GAN判别器是有区别的,普通的GAN判别器是将输入映射成一个实数,即输入样本为真样本的概率.PatchGAN将输入映射为NxN的patch(矩阵)X,XijX_{ij}Xij的值代表...原创 2019-03-01 15:06:04 · 56803 阅读 · 29 评论 -
一文搞懂DTFT,DFT,FFT
以下内容来自这里,概念解释的很清楚,搬过来做个备忘。很多同学学习了数字信号处理之后,被里面的几个名词搞的晕头转向,比如DFT,DTFT,DFS,FFT,FT,FS等,FT和FS属于信号与系统课程的内容,是对连续时间信号的处理,这里就不过多讨论,只解释一下前四者的关系。首先说明一下,我不是数字信号处理专家,因此这里只站在学生的角度以最浅显易懂的性质来解释问题,而不涉及到任何公式运算。学过卷积,...原创 2019-01-12 17:12:16 · 11686 阅读 · 3 评论 -
StarGAN-VC语音音色转换
语音转换(VC)是一种在保留语言信息的同时转换指定话语的语言信息的技术。VC可以在很多地方得到应用,如文本到语音(TTS)系统的说话人身份(男女,老少等)修改, 口语辅助,语音增强和发音转换。 目前VC的方法大部分对于并行数据中涉及的对齐处理不是很理想,因此可能需要仔细的预筛选和手动校正才能使这些框架可靠地工作。为了绕过这些限制, StarGAN关注的是实现一种非并行VC方法,它对训练集的要求上既...原创 2018-12-28 23:05:35 · 6891 阅读 · 2 评论 -
[论文阅读]FloWaveNet
本文提出了FloWaveNet,使用最大似然损失,并行生成原始样点。解决了原来的Parallel WaveNet和ClariNet的缺点:1.使用一个训练好的教师网络和一个学生网络进行两阶段训练;2.如果只使用概率蒸馏损失,容易模型崩塌;WaveNet模型是2016年9月谷歌提出的语音合成模型,利用神经网络对原始音频波形建模。WaveNet可以用作文本到语音系统(TTS)的声码器,输入一段句子,...原创 2018-12-28 16:26:02 · 659 阅读 · 0 评论 -
20偏差和方差:误差的两个主要来源(Bias and Variance The two big sources of error)
假设训练集,开发集和测试集都来自相同的分布,你应该获取更多训练数据,因为那样可以提高模型性能,对吧?不幸运的是即使取得更多训练数据没有什么坏处,它也没有你想象的很多的好处。取得更多训练数据也有可能是在浪费时间,所以问题来了,你如何确定什么时候增加训练数据,什么时候不呢?在机器学习领域有两大主要的误差来源:偏差和方差。理解了偏差和方差将帮助你确定什么时候增加数据,或者采用其他方式来提升性能。理解...原创 2018-12-05 17:29:21 · 314 阅读 · 0 评论 -
32 绘制学习曲线 ( Plotting learning curves)
假设现在只有100个样本的小训练集,使用随机挑选的分别包含10个,20个,30个,…, 100个样本的数据子集,样本子集每次增加10个样本,使用这10个样本子集去绘制学习曲线,你可能会发现曲线含有一些噪音(噪音意思是误差数值比期望值高或者低很多)。如果用随机挑选的10个样本来训练模型,可能你很不幸运地挑选的是极差的训练集,其中包含了很多模糊的或是贴错标签的数据,也可能你很幸运地挑选了极好的训练集...原创 2018-12-05 17:27:26 · 1433 阅读 · 0 评论 -
23 解决偏差和方差问题(23 Addressing Bias and Variance)
下面是解决偏差和方差问题最简单的原则:如果是可避免的高偏差,则增大模型(比如:给神经网络增加层或神经元)如果是方差很高,则给训练集添加更多数据如果你可以无限制地扩大网络,增加训练数据,就可以在很多机器学习问题上做的很好。实际上因为训练大型的模型速度很慢,所以扩大模型最终导致计算问题。你也可能在获取更多数据的问题上精疲力竭。(即使在因特网上,关于猫的图片数量也是有限的!)不同的...原创 2018-12-05 17:25:02 · 290 阅读 · 0 评论 -
[论文阅读]Neural music synthesis for flexible timbre control
本文提出了一种新的合成音乐的方法,直接从MIDI音符序列合成为由不同乐器演奏的音乐,并且可以自由地对音色进行操控,具体来说:网络输入MIDI音符序列,输出梅尔频谱,乐器嵌入作为对网络的约束,有了约束之后,网络就可以生成特定乐器的梅尔频谱,在将频谱输入到WaveNet声码器,声码器输出合成的特定乐器的音乐。本文的方法并不是第一次出现,之前已经有了Tacotron和DeepVoice这两中类似的模型...原创 2018-11-30 19:00:24 · 330 阅读 · 0 评论 -
[论文阅读] Singing Voice Timbre Classification of Chinese Popular Music
前言这是2013年发表在ICASSP上的Singing voice timbre classification of Chinese popular music,有点老了,今早没事翻阅文档时发现了,题目吸引了我:中国流行音色的歌声音色分类。因为我做的也是歌声音色方面的内容,所以花了一个小时看了全文,又花了一个小时有了此文。搜了一下本文关键词:singing voice timbre可见从02年...原创 2018-12-02 11:12:53 · 320 阅读 · 0 评论 -
推荐系统算法与KTV点歌推荐
文章目录一 推荐系统1.1 推荐系统概述1.2 推荐引擎原理二 推荐引擎评价指标三 推荐引擎分类四 推荐机制五 推荐系统应用一 推荐系统1.1 推荐系统概述 在现今信息数据爆炸的背景下,如何从海量数据中找到感兴趣的信息?在这样的情况下,搜索引擎无疑成了人们最常用的信息获取工具,通过搜索引擎可以精准的获取感兴趣的信息,但搜索引擎并不能完全满足用户对信息发现的需求,那是因为在...原创 2018-11-19 17:33:24 · 869 阅读 · 0 评论 -
乐器的分类
弦乐器弦乐器是乐器家族内的一个重要分支,在古典音乐乃至现代轻音乐中,几乎所有的抒情旋律都由弦乐声部来演奏。可见,柔美、动听是所有弦乐器的共同特征。弦乐器的音色统一,有多层次的表现力:合奏时澎湃激昂,独奏时温柔婉约;又因为丰富多变的弓法(颤、碎、拨、跳,等)而具有灵动的色彩。 弦乐器的发音方式是依靠机械力量使张紧的弦线振动发音,故发音音量受到一定限制。弦乐器通常用不同的弦演奏不同的音,有时则...原创 2018-10-26 19:38:08 · 1074 阅读 · 0 评论 -
【论文阅读】TimbreTron : A WaveNet (Cycle GAN(CQT(audio ))) pipeline for musical timbre transfer
本文讲的是乐器音色转换,即将一种乐器演奏的乐曲转换为另外一个乐器的音色,使转换后的乐音听起来像是另一个乐器所演奏的。提出了一种音频处理工作流程:TIMBRETRON,主要包含三个方面的工作:使用常数Q变换,做为音频的表征,即深度模型的输入使用CycleGAN的一个变种作为音色转换的模型使用WaveNet-Synthesizer来合成高质量的音频波形音色是人类对音乐的感知,即使是使用相同...原创 2018-10-25 20:25:24 · 1816 阅读 · 3 评论 -
IN和AdaIN原理与代码实现
Ulyanov发现在风格迁移上使用IN效果比BN好很多,从他开始凡是风格迁移都离不开IN和其变种AdaIN,本文简要介绍IN和AdaIN原理,应用。下图为特征图张量,可以直观看出BN,LN,IN,GN等规范化方法的区别。N为样本维度,C为通道维度,H,W为矩形特征图。ININ对每个样本的每个通道进行规范化,x为特征图,减去均值,除以标准差,规范化后分布均值为0,方差为1。在进行缩放和平移(...原创 2019-06-12 17:18:07 · 27413 阅读 · 3 评论