留尘铃-CSDN博客

原创扩散模型理论与公式推导——详细过程速览与理解加深

推荐在简单了解扩散模型原理后再来看本篇文章，加深对理论的理解，本篇只叙述有关扩散模型公式理论的推导~

2024-08-13 12:38:35 1151

原创让模型从Pytorch到NCNN——Pytorch模型向NCNN框架部署的小白向详细流程（PNNX模型转换、Linux模型使用）

一开始，稚嫩的我只是想能在实际应用场合中使用一些深度模型（结果没想到后面坑这么大），这就需要涉及到，如何将实验室里基于pytorch的一个开发模型，部署到算力和系统架构都不同的嵌入式设备中。随后我了解到了，部署到嵌入式设备上需要借助一些深度学习模型部署框架，这其中最著名的可能就是 ONNX (Open Neural Network Exchange) 了，我在阅读论文中也时常看到这个词汇，当时还不知道是啥。其他的还有腾讯家的 NCNN、阿里家的 MNN (Mobile Neural Network) 等。在

2024-08-08 18:52:13 1306 1

原创 MB-iSTFT-VITS 模型论文思路与实验分享：基于VITS架构优化的轻量级文本转语音模型

首先我们来看看语音合成的质量如何。这里就直接放原论文中作者做的实验结果了，作者使用的是ONNX版本的：这里面 MB-iSTFT-VITS 就是咱们的主角。MOS（平均意见分数）代表了语音合成质量，Params 表示参数数量，RTF 是实时率也就代表了合成速度。这里也包括了使用可训练滤波器的 MS-iSTFT-VITS、只使用 iSTFT 而没有使用多频段生成策略的 iSTFT-VITS ，以及它们的 mini 版本（单纯砍参数）的相关结果。感兴趣的读者可以看一下原文。

2024-06-15 19:35:24 1496

原创 TTS 文本转语音模型综合简述

通过模拟人的发声器官，进行建模，从而产生语音优点：Intelligence 很不错，但是不够自然，很像机器人声音，原因是当时是通过X相片对人的声道进行建模，因此建模不够准确。这类模型并不是很流行。Articulatory synthesis：发音合成，通过对发声器官进行建模优点：不需要数据库，就能合成能够被理解的语音。缺点：语音有点像机器人，并且非常难部署Formant synthesis：共振峰合成，基于提供的一系列规则进行建模。

2024-03-28 22:17:06 1967

原创 VITS 模型详解与公式推导：基于条件变分自编码器和对抗学习的端到端语音合成模型

既然是从低维重构原始图像不太行，那如果将隐变量维度取输入维度一样大小呢？似乎还不够，因为标准的 VAE 将后验分布也假设为高斯分布，这限制了模型的表达能力。事实上，人们猜测，由于高斯分布簇只是众多可能的后验分布中极小的一部分，如果后验分布的性质与高斯分布差很远，那么拟合效果就会很糟糕。因此，人们想到了另一个模型：Flow。流模型通过一系列耦合层，可以将复杂的输入分布转化为高斯分布，这样的过程可逆，雅可比矩阵行列式也容易计算，那么我们就可以使用流模型，将原本过于简单的高斯分布变为更加复杂的分布，从而提高其表达

2024-03-07 16:21:43 4767 3

原创流模型 Flow 超详解，基于 Flow 的生成式模型，从思路到基础到公式推导到模型理解与应用（Flow-based Generative Model）

相信看到标题，大家应该都可以明白，Flow 本质上也是一个生成式模型（Generative Model），和 GAN、VAE、自回归模型的性质是一样的。我们简单回顾一下：自回归模型（Auto-regressive Model）诸如 WaveNet 生成出来的声音质量确实很高，但是由于它是按照某种顺序一点一点生成的，因此生成速度非常的慢，甚至需要用90分钟来生成1秒的声音，这也就导致其不太能投入实际使用。VAE 也很不错，然而我们讲过，VAE 优化的是一个变分下界（ELBO），是做了一个迂回，而并不是去

2024-02-28 15:38:20 3932 1

原创【原版】流模型 Flow 超详解，基于 Flow 的生成式模型，从思路到基础到公式推导到模型理解与应用（Flow-based Generative Model）

既然得到了 π of z 和 p of x 之间的关系，我们再回到刚刚的目标函数上，因此我们就可以对目标函数进行变换：由：以及之前推导出的核心公式，可得：进行变量替换再取 log，得：由此便得到了我们最终需要最大化的式子，也就是目标函数。可以计算 det(J_G)：我们知道了生成器 G，理论上知道了 z 怎么变成 x 就很容易计算其雅可比矩阵的行列式。

2024-02-28 14:50:36 2104

原创变分自编码器 VAE 超详解，从简单公式推导到模型结构到模型理解

理解了我们的核心公式和要做的事情后，我们就可以着手搭建模型了。首先我们需要做的是确定 z。VAE 是如何去描述潜在空间 z 的呢？它认为，z 根本没有一种合适的阐述方法，而是直接假定 z 的样本可以从简单的分布中抽取，即标准正态分布N(0, I)，其中 I 是单位矩阵。因为，任何 d 维度的分布都可以用一组 d 个服从正态分布的变量，通过足够复杂的函数进行映射从而生成。其中的原理可以参考[这篇论文。此外，也有采用正态分布可以更方便 KL 散度计算的说法。

2024-02-23 23:56:02 13469 16

原创记录Git无法连接Github（443报错）的一种可能——代理问题

然后我怀疑是网络环境问题，是不是哪次更新把我 clash 的 Socks5 给 ban 了，但是查了相关的资料好像又没看出个所以然，这下真暴露我的计网知识的匮乏了（悲）结果再次使用 https 进行克隆的时候这回就 ok 了，并且修改回原来的 SOCK5（不删除 https 代理）确实是无法克隆的。可以看到我之前是设置了对 github 使用 http 协议访问的时候进行代理，并且还是用的 Socks5 协议。观察自己的 git 代理设置中使用的是什么协议，如下方情况使用的是 Socks5。

2024-02-03 18:17:37 5432

原创 RNN-T Training，RNN-T模型训练详解——语音信号处理学习（三）（选修三）

我们看下面这张表。在解码部分，LAS 和 RNN-T 会考虑前面的时序对当前时序的影响。而 CTC 并不会考虑之前的时间步已经生成出来的token。所以 LAS 和 RNN-T 在解码部分是相对比较强的。在对齐部分，CTC 和 RNN-T 都是需要考虑对齐的。而因为中间的注意力层，LAS不用显式地考虑对齐，而是采用 soft alignment，使用注意力机制来找出语音和文字之间的关系。在训练部分，LAS 只需要直接训练就行，而 CTC 和 RNN-T 则需要将所有的对齐方式概率相加，比较麻烦。

2023-11-29 16:27:13 1035 3

原创 Alignment of HMM, CTC and RNN-T，对齐方式详解——语音信号处理学习（三）（选修二）

HMM，CTC 和 RNN-T 要做的对齐有相似的地方，也有不同。我们假设输入有 6 个声学特征向量（长度T=6），以 character 为 token 单位（虽然对 HMM 来说这个单位还是太大了），输出是 "c", "a", "t"（长度N=3）。对于 HMM 来说，它要做的事情就是将 cat 3个字母进行重复，让重复后的长度等于声学特征向量序列长度。对于 CTC 来说，它有两种方式，一种是对 cat 3个字母进行复制，也可以在其中插入符号，最终使得长度等于声学特征向量序列长度。

2023-11-29 16:13:24 654

原创 HMM（Hidden Markov Model）详解——语音信号处理学习（三）（选修一）

在过去，我们可以使用统计模型来做语音识别。给定输入语音序列X，我们只需要找到最大概率的输出文字Y就可以了，也就是穷举所有可能的Y，找到一个Y*使得 P(YX) 最大化。我们也把这个过程叫作解码（decode），公式如下：穷举需要非常好的演算法，这个问题太复杂。好在我们可以使用贝叶斯定理对其进行变换，变换后的公式如下。由于 P(X) 与我们的解码任务是无关的，因为不会随着Y变化而变化。所以我们只需要保留分子部分即可。变换后，我们将式子的前半部分 P(XY) 称为，后面这项 P(Y) 称为。

2023-11-29 16:03:47 835

原创 Vocoder，声码器详解——语音信号处理学习（十）

WaveNet 合成出来的音质还是非常好的，但由于是自回归模型，而声音信号中，一秒就有16000个值，也就是说使用 WaveNet 产生一秒的声音就需要运算 16000 次，因此在生成时就会非常慢。而下面提到的模型其主要目的就是为了解决生成速度很慢的问题。FFTNet 采用了更简单的架构，可以以更快的速度生成和 WaveNet 几乎一样好的声音信号。作者甚至在论文里说模型可以做到使用 CPU 的实时转换（real time using CPU），也就是产生 1s 的声音信号花不到 1s。

2023-11-21 11:30:53 2018

原创 Speaker Verification，声纹验证详解——语音信号处理学习（九）

声音模型有这么一大类，其模型主要需要完成的任务是，输入一段语音，输出某一类别。相关的模型或任务有：Emotion Recognition：情绪识别，输入语音，判断语者情绪如何。Sound Event Detection：声音事件侦测，输入语音，判断发生了什么事，可以用于安保等行业。Autism Recognition：自闭症识别，输入语音，判断是否患有自闭症。Keyword Spotting：关键词识别，输入语音，判断指定的关键词是否在语音中出现过。那么采用这类模型，和语者有关的任务有哪些呢？

2023-11-21 11:08:11 1384

原创 Speech Synthesis，语音合成详解——语音信号处理学习（八）

Text-to-Speech，即文字到语音，也就是我们这个课程所要完成的内容：语音合成。目前的语音合成技术都是端对端训练的。课程大纲会先讲在深度学习流行之前，业界是怎么做的，再讲我们要怎样控制 TTS 来合成出我们想要的声音。Tacotron 用的是一个典型的 Seq2Seq + Attention 的模型架构。它输出还会有个后处理（Post-processing）才会产生声音频谱（spectrogram）。

2023-11-17 10:19:40 903 1

原创 Speech Separation，语音分离详解——语音信号处理学习（七）

本文主要介绍了语音分离任务中的评估指标，包括信噪比(SNR)和幅度不变信号失真比(SI-SDR/SI-SNR)等；同时讨论了样本排列问题、深度聚类、PIT以及TasNet等技术应用在语音分离任务中的优缺点和发展。此外，还探讨了未知说话人数、多麦克风、视觉信息和任务导向优化等方面的研究。

2023-11-17 09:59:21 3347

原创 Voice Conversion，语音转换详解——语音信号处理学习（六）

VC 任务是什么：输入一段声音，输出另一段声音。输出的声音在内容上与输入一样，但音色发生了变化。就像是柯南的领结变声器。用处是什么（必要性）改变 Speaker：不同人说相同的内容效果不一样可以愚弄人可以制作 Personalized TTS（Text-to-Speech），也就是个人化的语音合成系统还可以转换歌声可以保障个人隐私（变声）改变 Speaking Style：讲话的情绪变化。

2023-11-04 10:38:55 1232

原创语音识别之Language Modeling，语言模型详解——语音信号处理学习（五）

本文主要介绍了语言模型（LM）在语音识别中的重要性和应用。LM能够估计token sequence的概率，包括N-gram、Continuous LM、NN-based LM和RNN-based LM等模型。此外，文章还介绍了如何将LM与语音识别模型（LAS）相结合，包括Shallow Fusion、Deep Fusion和Cold Fusion等融合方式。这些融合方式可以大大提高LAS的预测准确度，但也存在一些问题和限制。

2023-11-04 10:13:03 625

原创 2023年端到端语音翻译综述（Recent Advances in Direct Speech-to-text Translation）

文章探讨了端到端语音翻译（ST）中的挑战和解决方法。针对模型过于沉重的问题，介绍了Transformer模型的变种（Speech-Transformer、Conformer、SSL-Transformer）和多任务框架（解耦解码器、解耦编码器、双流编码器）。针对数据稀缺的问题，提出了数据增强、预训练和知识蒸馏等方法。此外，还探讨了一些应用问题，如实时性、分割、命名实体翻译、码混和以及性别偏见等，最后提出了未来研究的方向，如大语言模型、多模态和上下文学习等。

2023-10-25 15:06:41 1155 1

原创语音识别之CTC，RNA，RNN-T，Neural Transducer，MoChA模型详解——语音信号处理学习（四）

LAS：就是 seq2seqCTC：decoder 是 linear classifier 的 seq2seqRNA：输入一个东西就要输出一个东西的 seq2seqRNN-T：输入一个东西可以输出多个东西的 seq2seqNeural Transducer：每次输入一个 window 的 RNN-TMoCha：window 移动伸缩自如的 Neural Transducer。

2023-10-24 15:05:07 1073

原创语音识别之Listen, Attend and Spell（LAS）模型详解——语音信号处理学习（三）

在一开始，LAS 在一些小数据集上面训练出来的结果其实并不是很好，它和常规的深度学习结果还有一定的差距。但随着训练的数据集越来越大，LAS也开始起飞了，最终在12500hour+的数据集上反超了常规深度学习的算法，并且LAS在模型大小上（0.4 GB）还远胜于传统深度学习算法（7.2 GB）

2023-10-23 11:10:06 1129

原创 Speech Recognition，初见语音识别——语音信号处理学习（二）

一、Text Token二、模型（Speech Recognition）功能三、声音特征 Acoustic Feature四、声音数据集介绍五、常用声音模型介绍（基本上都是 seq2seq 模型）

2023-10-23 10:59:49 497

原创 Transformer模型详解——语音信号处理学习（一）

Transformer 模型是一种深度学习架构，最初由Vaswani等人在2017年提出，用于处理自然语言处理任务，如机器翻译。它引入了自注意力机制（Self-Attention Mechanism）和并行计算的概念，从而在处理序列数据方面取得了显著的突破。Transformer 模型的创新在于它引入了一种高效的自注意力机制，允许模型在处理长序列时更好地捕获上下文关系，并且具有强大的并行计算能力。这使得它在多种自然语言处理任务中表现出色，如翻译、文本生成、命名实体识别等。

2023-10-21 12:37:14 1854 1

原创 Qt6.5.2 安装官方MQTT库，使用CMake编译，Qt安装其他第三方库通用教程

为了在Qt里装一个MQTT库，我看了好多教程，好多都是比较老的Qt版本，要么就是讲的不太清楚。虽然整个过程都差不多，不过为了照顾啥都不懂的小白（比如我），写一整个流程还是很有必要的。

2023-08-27 10:46:53 4845 21

原创安卓应用开发期末与面试概念冲刺（概念与代码，from hitwh）

属性值代表的含义top,bottom位于其容器的顶部，底部left,right位于其容器的左侧，右侧居中，填满其容器垂直方向上居中对齐水平方向上居中对齐垂直方向填充水平方向填充垂直方向裁剪，剪切基于其纵向对齐设置，顶部对齐时，剪切底部；底部对齐时剪切顶部；除此之外剪切顶部和底部水平方向裁剪，剪切基于其横向对齐设置，左侧对齐时，剪切右侧；右侧对齐时剪切左侧；除此之外剪切左侧和右侧gravity属性是对view控件本身来说的，是用来设置控件本身的内容应该显示在该控件的什么位置。

2023-07-15 08:59:58 237 1

原创软件测试与质量保证 - 复习与面试题库（from hitwh）

由于和项目组的相互独立，SQA工程师发现的问题不能得到及时有效的解决。若有一个计算类型的程序，它的输入量只有—个X，其范围是[-1．0，1．0]，现从输入的角度考虑一组测试用例：-1.001，-1.0，1.0，1.001。在某大学学籍管理信息系统中，假设学生年龄的输入范围为16-40，则根据黑盒测试中的等价类划分技术，下面划分正确的是（可划分为1个有效等价类，2个无效等价类）凭经验或直觉推测可能的错误，列出程序中可能有的错误和容易发生错误的特殊情况，选择测试用例的测试方法叫（错误推测法）

2023-07-15 08:55:15 2577 1

原创 Android 应用开发学习笔记（2 of 2，from hitwh）

全笔记共1.4w字，共分2篇发布，一点一滴带你学习《Android应用开发》，课程内容源自笔者本科学校。内容包括：Android 概述、Android项目的创建和运行、Activity、Android用户界面、Intent、Android广播机制、Service、简单数据存储和访问（简单）（SharedPreference）、数据存储和访问(SQLite示例)

2023-07-15 08:43:46 223 1

原创 Android 应用开发学习笔记（1 of 2，from hitwh）

全笔记共1.4w字，共分2篇发布，一点一滴带你学习《Android应用开发》，课程内容源自笔者本科学校。内容包括：Android 概述、Android项目的创建和运行、Activity、Android用户界面、Intent、Android广播机制、Service、简单数据存储和访问（简单）（SharedPreference）、数据存储和访问(SQLite示例)

2023-07-15 08:21:44 256 1

原创大数据技术与实践学习笔记（3 of 3，from hitwh）

全笔记共3.4w字，共分3篇发布，一点一滴带你学习《大数据技术与实践》，课程内容源自笔者本科学校。内容包括：大数据技术概述、大数据与其他新技术之间的关系、大数据的获取、存储与并行计算、大数据分布式文件处理系统HDFS、分布式数据库HBase、、MapReduce、Hive、Spark、理解数据、大数据技术综合运用

2023-07-14 16:53:01 304 1

原创大数据技术与实践学习笔记（2 of 3，from hitwh）

全笔记共3.4w字，共分3篇发布，一点一滴带你学习《大数据技术与实践》，课程内容源自笔者本科学校。内容包括：大数据技术概述、大数据与其他新技术之间的关系、大数据的获取、存储与并行计算、大数据分布式文件处理系统HDFS、分布式数据库HBase、、MapReduce、Hive、Spark、理解数据、大数据技术综合运用

2023-07-14 16:45:45 201 1

原创大数据技术与实践学习笔记（1 of 3，from hitwh）

全笔记共3.4w字，共分3篇发布，携带笔记pdf资源，一点一滴带你学习《大数据技术与实践》，课程内容源自笔者本科学校。内容包括：大数据技术概述、大数据与其他新技术之间的关系、大数据的获取、存储与并行计算、大数据分布式文件处理系统HDFS、分布式数据库HBase、、MapReduce、Hive、Spark、理解数据、大数据技术综合运用

2023-07-14 16:38:03 1432 1

原创真的不能再详细了，2W字保姆级带你一步步用Pytorch搭建卷积神经网络实现MNIST手写数字识别

2w6k字，真的不能再详细了！！！几乎每一行代码都有注释！！！本教程包括MNIST数据集的下载与保存与加载、卷积神经网路的构建、模型的训练、模型的测试、模型的保存、模型的加载与继续训练和测试、模型训练过程、测试过程的可视化、模型的使用。

2023-04-07 09:45:31 6706 2

原创超详细图文教程·阿里云免费学生ECS云服务器领取并使用全过程（部署Python多人聊天室程序）

前言：Python课需要完成一个需要实现多人聊天室的实验，有个附加要求就是能否不局限在局域网中进行聊天，而是能实现连接公网就可以聊天。这就需要我们将服务端的Python代码放在云服务器上运行。而本人由于在此之前从来没接触过这方面的内容，真的在这个过程中遇到了很多的问题，也是摸索了一个晚上才完成了云服务器的部署与使用。实际上我也查了很多的云服务器的使用教程，但是大多数都很复杂（很多都是针对web项目的部署），并且都不是很符合我目前的需求。所以就有了这篇新手教程。正文：一、参与阿里云“飞天加

2022-04-20 11:21:34 15635 10

原创最小平铺路径问题思路速览与代码详解（贪心算法）

一、问题描述二、场景构建包工头小刘要去铺路，工地给了一系列砖头，这些砖头长度不一，路是固定的，砖头肯定也能铺满，每块砖头能放的位置也是固定的，现在小刘要用最少的砖头铺完这一条路。三、贪心策略选择现在假设工地给的砖头已经按照砖头开始的地方从左到右（数轴数值从低到高），并且砖块长也从低到高排列了（即X中 l1 <= l2 <= ... <= ln，当 li = li+1 时，ui <= ui+1）小刘决定使用这样的办法铺路：每次选..

2022-04-18 18:08:59 856

原创 Python编写多线程多人聊天室系统（Socket编程、tkinter组件使用）

Python编写多线程多人聊天室系统，并将聊天记录存储至txt文件中（Socket编程、tkinter窗口设计），包括昵称查重、用户列表、log记录等功能。

2022-04-17 01:07:20 11998 25

原创数据库实践·使用Java访问MySQL（Eclipse）并实例操作

用Java访问数据库MySQL，编译器为Eclipse，包括前期准备工作、代码样例和实战案例。

2022-04-16 23:58:07 2487

原创求取最长公共递增子序列LICS并打印（C++)

动态规划求取最长公共递增子序列（LICS）并打印，包括最长公共子序列和最长递增子序列的代码（错误思路的产物），注解详细，思路清晰，包含常见错误思路

2022-04-11 13:20:41 1238 3

原创有关zeal离线包的下载

zeal的前端离线文档，版本当前最新

2022-03-04 00:43:25 611 1

语音信号处理课程学习（全）

Android 应用开发学习笔记（全，from hitwh）

大数据技术与实践学习笔记（全，from hitwh）

空空如也