![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
音频生成
文章平均质量分 95
客院载论
I'm a coder!!
展开
-
论文学习——Vector Quantized Diffusion Model for Text-to-Image Synthesis
* 这篇文章描述的模型是将vqvae模型和扩散模型结合,进行图片生成。刚好可以用到当前的项目中,使用自回归模型进行音频信息生成,太浪费时间了。原创 2024-01-31 09:42:59 · 1229 阅读 · 0 评论 -
论文学习——DIFFWAVE: A VERSATILE DIFFUSION MODEL FORAUDIO SYNTHESIS
* 需要使用这个模块替换hifi-gan模块,需要弄清楚一下几点: * 他是如何接受频谱信息,进行声音生成的? * 他是常规的的扩散模型有什么不同?原创 2024-01-31 09:42:13 · 1216 阅读 · 3 评论 -
论文学习——FALL-E:GAUDIO FOLEY SYNTHESIS SYSTEM
* 在本文中,我们介绍了 FALL-E、Gaudio 的 foley 合成系统。**FALL-E 采用级联方法,具有低分辨率频谱图生成、超分辨率模块和声码器。**通过我们广泛的数据集和语言模型条件以及提示工程,我们获得了高质量、多样化和连贯的声音生成结果。原创 2023-10-15 16:29:46 · 242 阅读 · 0 评论 -
论文学习——Class-Conditioned Latent Diffusion Model For DCASE 2023
* 整个系统使用了LDM潜在扩散模型(latent diffusion model),变分编码器(VAE)还有HiFi-GAN声码器。 * 通过LDM,生成声音基于类别所以你的潜在表示 * 通过VAE将潜在特征表示转为mel频谱图 * 通过HiFi-GAN将频谱图转为波形图* **数据集**:使用DCASE2023提供的数据集进行训练,声音类别索引作为生成特定类别的声音潜在标识的索引。* **提升差异度的方法**:首先将LDM在AudioCaps上进行预训练,然后再进行微调* **提升类别原创 2023-10-14 17:02:52 · 580 阅读 · 0 评论 -
声音生成评价项目AudioLDM_eval项目配置过程
AudioLDM——eval的安装和使用原创 2023-10-10 20:38:24 · 483 阅读 · 2 评论 -
论文代码学习——Conditional Sound Generation Using Neural Discrete Time-Frequency Representation Learning
* 之前是不准备写这部分的代码分析,因为这个论文,仅仅是将所有的框架进行组合,实现的效果提高。他所用的三个部分分别是VQ-VAE、HiFi-GAN还有PixelSNAIL,这三部分相关论文还有代码我都看过了,但是直接看他的代码,看起来还是有点困难,所以在重新总结一下。* 这里将会结合他的论文,重点看看作者在各个部分提出的创新点,在代码中是如何体现的。原创 2023-09-22 17:44:27 · 250 阅读 · 0 评论 -
声音生成评价指标——使用声音分类模型评价生成声音质量(基于resnetish、VGGish、AlexNet)
* 这篇文章主要介绍使用resnetish和vggish对声音进行分类的代码,因为要通过分类模型的准确率来评价生成声音的质量,所以有必要好好实现一下这部分代码。需要实现如下的要求 * 不需要知道具体的代码逻辑结构,能跑就行 * 数据预处理部分 * 模型重新训练部分 * 模型测试部分汇总* 继续弄吧,这部分是结果分析的最后一部分了,完成了这部分就可以完成整个实验的复现了。原创 2023-09-18 17:07:58 · 520 阅读 · 0 评论 -
声音生成结果比较方法综述——FAD、JSD、NDB多种衡量参数
* 之前自己并没有对这方面的内容进行研究过,每一次遇到一片论文,想到的都是将模型跑起来就行了,并没有关注过实验部分,以及对生成结果的测试部分。最近着手修改模型,才发现,我并不知道如何更好地衡量自己修改的模型生成声音的好坏,所以现在回来补以前欠下的技术债。* 这篇文章,主要是总结所见的论文中,常见的评测生成声音好坏的方法,并给出相关的实现方法。这篇文章主要是关注客观指标。原创 2023-09-13 16:48:57 · 1070 阅读 · 0 评论 -
PixelSNAIL论文代码学习(1)——总体框架和平移实现因果卷积
这篇文章是一个自回归神经网络,将自注意力机制和因果卷积进行结合,我们在PixelCNN中学习过因果卷积的具体实现,并且结合了相关代码进行阅读 PixelSNAIL的效果是远比PixelCNN的效果好的,而且,这里并不知道如何实现自注意力机制,所以需要好学习一下他的代码。原创 2023-09-03 21:52:36 · 453 阅读 · 0 评论 -
PixelSNAIL论文代码学习(2)——门控残差网络的实现
* 这段时间看他的代码,还是挺痛苦的,因为我对于深度学习的框架尚且不是很熟练 ,而且这个作者很厉害,很多东西都是自己实现的,所以看起来十分费力,本来想逐行分析,结果发现逐行分析不现实,所以这里按照模块进行分析。* 今天就专门来学习一下他门门控控残差模块如何实现。原创 2023-09-03 17:32:53 · 5229 阅读 · 0 评论 -
PixelSNAIL论文代码学习(3)——自注意力机制的实现
* 阅读了pixelSNAIL,很简短,就用了几页,介绍了网络结构,介绍了试验效果就没有了,具体论文学习链接* 这段时间看他的代码,还是挺痛苦的,因为我对于深度学习的框架尚且不是很熟练 ,而且这个作者很厉害,很多东西都是自己实现的,所以看起来十分费力,本来想逐行分析,结果发现逐行分析不现实,所以这里按照模块进行分析。原创 2023-09-03 15:59:47 · 427 阅读 · 0 评论 -
论文学习——A Proposal For Foley Sound Synthesis Challenge(如何开发出一个完整的FoleySound系统)
* 这篇文章是DCASE说明文档之前的一封提议的论文,指出为什么需要开设一个专门针对FoleySound合成的竞赛。这篇文章可以作为我写综述的材料,提供一些具体的应用和创新落脚点。* 为了周四的组会,还是需要在一个小时内完成这篇文章的翻译和学习。* 这个文章大部分和之前那个DCASE的官方文档相类似,所以我就挑重点来翻译,重复并且不重要,我就简略概括一下。* 对FoleySound声音进行了具体的定义,将这个问题划分为四个阶段,给出了合理解释。* 对FoleySound的相关研究给出了介绍,并且指明原创 2023-08-21 20:00:11 · 354 阅读 · 0 评论 -
论文学习——FOLEY SOUND SYNTHESIS AT THE DCASE 2023 CHALLENGE(声音生成介绍)
这篇文章看了两天,中间有一个半天被抽调去工厂了。下面对这个论文来进行一个总结,主要是说一下我认为的重点。* **Baseline Model** * 这个主要由三个部分构成,方便参赛者分模块进行修改,而不需要改动其他的模块,能够降低参赛的门槛。* **主客观评估体系** * 这是文章的重点,目前对于声音生成的评价体系过于单调,仅仅依靠客观指标并不能有效反应生成模型的效果,所以需要结合主观指标和客观指标。 * 目前对我来说 ,不是重点,因为我还要去实现,只需要在客观指标上有所创新就行了。原创 2023-08-20 16:45:24 · 495 阅读 · 0 评论 -
论文代码学习—HiFi-GAN(4)——模型训练函数train文件具体解析
* 整个train文件需要完成调用模型,加载数据进行训练和对训练结果进行记录等功能,是主要的运行程序。具体功能如下: * **模型定义**:定义生成器和判别器 * **指定优化器和学习率**:指定AdamW优化器,并定义指数学习率调度器 * **数据加载**:使用Dataloader加载训练和验证数据 * **定义训练过程**:指定前向传播、loss计算和反向传播的过程 * **验证和日志记录**:模型测试,并使用TensorBoard记录训练过程* 整体的训练文件代码太多了,并且牵扯到很多分布原创 2023-08-03 15:26:54 · 1075 阅读 · 0 评论 -
论文代码学习—HiFi-GAN(3)——模型损失函数loss解析
* 关于模型的损失函数,这里总共有两部分损失函数,分别是生成器损失函数和鉴定器损失函数。其中生成器的损失函数,有分为三部分,分别是常规的对抗生成损失、针对特征匹配的损失函数和针对梅尔频谱图的损失函数,后两者是作者自己的加上去的。原创 2023-08-02 14:07:23 · 1614 阅读 · 4 评论 -
论文代码学习—HiFi-GAN(2)——鉴别器discriminator代码
* 本文主要围绕具体的代码实现细节展开,对于相关原理,只会简单引用和讲解。因为官方代码使用的是pytorch,所以是通过pytorch展开的。* 当前这篇主要介绍鉴别器的具体实现,在HiFi-GAN中,鉴别器分是由周期鉴别器和尺度鉴别器构成,当前这篇将就两种鉴别器的原理和功能进行具体讲解。原创 2023-07-27 16:27:10 · 754 阅读 · 0 评论 -
论文代码学习—HiFi-GAN(1)——生成器generator代码
* 本文主要围绕具体的代码实现细节展开,对于相关原理,只会简单引用和讲解。因为官方代码使用的是pytorch,所以是通过pytorch展开的。* 因为篇幅限制,这部分仅仅讲述了整个项目的具体架构,详细读了,对应的readme.md文件,并对model.py文件中的generator生成器进行代码分析。原创 2023-07-25 14:52:01 · 1083 阅读 · 9 评论 -
论文学习——HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis
* 这篇文章,是《CONDITIONAL SOUND GENERATION USING NEURAL DISCRETE TIME-FREQUENCY REPRESENTATION LEARNING》主要应用到的三个技术之一,我正在复现这篇文章,然后需要了解HiFi-GAN技术,续哦一就翻译了这篇文章。* 这篇文章是2020年的,近三年的文章,是Conference on Neural Information Processing Systems (NeurIPS 2020),这个会议也是人工智能领域的顶会原创 2023-07-18 19:09:49 · 1769 阅读 · 0 评论 -
音频处理相关内容学习——自动编码器——变分自动编码器——频谱图
Valerio Velardo - The Sound of AI 使用神经网络进行声音生成的所需要的前奏知识原创 2023-05-09 15:06:31 · 1252 阅读 · 0 评论 -
Autoencoder代码实现——声音合成——多模态智能感知与应用
代码复现过程,使用autoencoder实现mnist数据的生成原创 2023-05-13 19:28:30 · 840 阅读 · 2 评论 -
声音生成——将Autoencoder修改成Variant Autoencoder在mnist训练
声音合成——Foley Sound——DECASE项目——多模态智能感知与应用——VariantAutoencoder(VAE)代码实现,主要是如何从autoencoder变成variant autoencoder的原创 2023-05-15 15:24:48 · 603 阅读 · 0 评论 -
论文翻译——Conditional Sound Generation Using Neural Discrete Time-Frequency Representation Learning
这部分准备先复现项目,看看能不能跑起来,只要能跑起来,就剩下看论文了,然后根据论文讲讲代码,这个任务基本上就算是完成了,至少下周的课程没啥问题了。论文的题目是CONDITIONAL SOUND GENERATION USING NEURAL DISCRETE TIME-FREQUENCY REPRESENTATION LEARNING原创 2023-05-17 14:41:23 · 852 阅读 · 0 评论 -
声音生成项目(3)——VariantAutoencoder(VAE)中使用生成好的模型进行声音生成
* 这部分主要是在已经训练好的模型的基础上,利用模型生成声音,主要是两个py文件,分别是soundgenerator.py和generate.py, * 前一个文件是声明一个SoundGenerator类,实现如下功能 * 将频谱图中的db转为振幅 * 将频谱图转为波形图 * 后一个是具体调用的已经训练好的模型和SoundGenerator类,进行声音生成的文件。* 下面是针对各个模块进行的说明,并展示最后的执行效果原创 2023-05-17 14:58:06 · 1460 阅读 · 3 评论 -
Foley Sound——DECASE项目——项目复现
* 这部分准备先复现项目,看看能不能跑起来,只要能跑起来,就剩下看论文了,然后根据论文讲讲代码,这个任务基本上就算是完成了,至少下周的课程没啥问题了。* [项目的地址](https://github.com/DCASE2023-Task7-Foley-Sound-Synthesis/dcase2023_task7_baseline)* [论文地址](https://arxiv.org/pdf/2107.09998.pdf)原创 2023-05-17 14:44:07 · 669 阅读 · 1 评论 -
基于深度学习中的语音生成---自动编码器autoencoder和可变自动编码器Variant Autoencoder——DCASE中FoleySound项目讲解
* 这个专题是我完成《智能感知与应用》这门课中,声音和自然语言处理章节的课程作业,我首先在DCASE社区了解最新的音频处理的最新技术,总共6个专题,我选了声音生成,准备复现他给的baseline,但是复现起来比较困难。* 然后就去找资料,找到了一个youtube上一个专门讲声音的up主,《Valerio Velardo - The Sound of AI》,学习了他的《Generating Sound with Neural Networks》,自己复现并且在本地跑了一下原创 2023-05-17 15:08:38 · 415 阅读 · 0 评论 -
基于自动编码器VAE的声音生成之音频预处理模块preprocess pipeline的实现和代码讲解
* 这部分是将原来基于mnist手写数据集生成模型,一个用到基于FSDD音频数据集的声音生成模型的关键。二者差别,就在于多了这一步。* 通过这一步,将音频文件转为频谱图,所以,后半部分生成图片的就可以重复利用了,这部分是关键。* 具体流程如下图,就是多了前后的预处理这部分。原创 2023-05-17 23:38:01 · 1245 阅读 · 9 评论 -
声音生成项目(4)——从VariantAutoencoder(VAE)到VQ-VAE矢量量化变分编码器
矢量量化的自动变分编码器的实现,包括具体的原理讲解,以及相关内容的讲解原创 2023-06-11 22:00:34 · 1246 阅读 · 0 评论 -
论文学习——PixelCNN——使用PixelCNN生成图片
在上一篇就是介绍了矢量量化变分模型的具体实现,就是一个编码器和解码器,只能生成和原来图片一样的图片,没啥意义。这里需要生成一个新的码字序列,解码器能够接受这部分数据,然后解码成对应的新的图片。作者使用PixelCNN去训练这些码本pixelCNN的论文链接代码样例PixelCNN是一个自回归模型,根据已有的序列生成下一个位置的值。在这个任务里,就是生辰新的码字序列,然后使用训练好的解码器生成对应的新的图片。本来是想读论文的,一看已经是2016年的文章了,网上已经有很多相关的介绍了。原创 2023-07-13 20:52:53 · 1687 阅读 · 2 评论 -
DCASE官网介绍——多模态智能感知与应用(课程报告)
多模态智能感知与应用中有关音频信号的学习,主要是音频信号的生成原创 2023-05-07 09:14:37 · 902 阅读 · 0 评论