Zero_to_zero1234-CSDN博客

原创语音合成相关论文及代码整理

对重要的语音合成论文及代码进行更新和记录（持续更新）一、论文1、tts 前端2、expressive tts3、voice clone/conversion4、vocoder二、代码1、https://github.com/PaddlePaddle/PaddleSpeech完整的语音识别（流式）、语音合成（流式）、声纹识别、声音分类的工程库2、..................

2022-05-23 22:34:19 1423

原创优秀博客和工具集合

一、生活二、编程七月三、深度学习七月四、NLP1、对话：段清华（人工智障工程师）李理的博客2、语音合成、语音识别李理的博客

2020-09-21 13:05:37 940

深度学习论文专栏以下，建立论文阅读专栏，一是为提高论文阅读能力，二是为保证知识更新，三是为了记录和传播好的论文思想以下仅做粗浅分类，方便查阅一、NLP1、Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention 【https://arxiv.org/pdf/2006.16236.pdf】2020新作待读二、语音1、三、其他1、...

2020-06-30 11:56:03 947

原创国内外最好的语料库汇总

语料在语言学科研究和深度学习中都至关重要，下面对常用的语料库资源进行总结：部分信息来源于其他博客，但是本文会保持持续更新Open Speech and Language Resourceshttp://www.openslr.org/resources.php更新(2020年6月10)：若干开源语音数据库： https://blog.ailemon.me/2018/11/21/free-open-source-chinese-speech-datasets/更新2020/10/23AISHELL-3 高保

2019-07-18 15:25:57 37364 5

原创如何指定远程端.vscode-server安装路径

见博客：https://blog.csdn.net/weixin_44893748/article/details/131551795。

2025-11-13 10:47:17 271

原创 whisperX 安装及测试

仓库地址：https://github.com/m-bain/whisperX。

2025-11-10 14:27:47 238

原创 Docker 使用GPU 错误: Error could not select device driver ““ with capabilities: [[gpu]] 解决方案 -2025 验证可用

【代码】Docker 使用GPU 错误: Error could not select device driver ““ with capabilities: [[gpu]] 解决方案 -2025 验证可用。

2025-10-15 11:31:00 236

原创 Docker配置国内镜像源

参考这个：亲测有效，记录一下。

2025-10-15 11:27:11 227

原创一个简单的GPU压力测试脚本-python版

【代码】一个简单的GPU压力测试脚本-python版。

2025-09-12 22:26:01 219

原创从CSEMOTIONS数据的parquet格式文件中提取原始数据

该Python脚本用于从本地的CSEMOTIONS数据集（Parquet格式）中提取音频文件。主要功能包括：查找并读取Parquet文件，提取音频字节数据，转换为WAV格式保存，并记录文本、情感标签和说话人信息。脚本会统计处理结果，包括各情感类别和说话人的音频数量。输出文件保存在"extracted_audio"目录下，包含音频文件（.wav）和对应的文本元数据文件（.txt）。

2025-09-10 16:16:22 185

原创 NVSpeech_170k 数据集音频提取处理

本文介绍了一个从Hugging Face下载NVSpeech170k语音数据集并进行本地处理的Python脚本。脚本首先需要用户配置本地数据集路径，然后自动创建输出文件夹，加载数据集并提取音频和文本内容。通过遍历数据集中的样本，将音频保存为.wav文件，文本保存为.txt文件，并显示处理进度。该脚本适用于需要批量处理语音数据的研究者，能够有效提取数据集中的音频和对应文本信息，便于后续的语音处理和分析任务。

2025-09-10 15:25:11 375

原创解决从 hugging face 上下载数据遇到的登录及权限问题

摘要：本文提供解决Hugging Face门禁数据集下载权限问题的标准流程(SOP)。首先检查Hugging Face账户和datasets库版本；其次在官网同意数据集使用条款；第三步生成具备"写入"权限的访问令牌；第四步通过hf auth login命令完成本地认证；最后编写Python脚本调用load_dataset()函数下载数据集。完整流程包含各环节图文操作指引，确保用户能够正确配置权限并成功下载受限数据集。

2025-09-10 11:46:11 830

原创语音大模型速览（三）- cosyvoice2

这篇论文提出了流式语音合成模型CosyVoice 2，其核心创新围绕高效流式合成、高质量语音生成及多场景适配展开，结合大型语言模型（LLMs）与流匹配技术，实现了接近人类水平的自然度和极低延迟。以下是核心创新及原理细节的总结

2025-07-18 21:49:48 1114

原创语音大模型速览（二）- cosyvoice

本文介绍了CosyVoice，这是一种可扩展的多语言零样本文本转语音合成器，其核心创新在于采用监督语义令牌（S³ tokens），该令牌通过在多语言语音识别模型编码器中插入矢量量化获得，相比现有无监督令牌，在零样本语音克隆的内容一致性和说话人相似度上表现更优。CosyVoice 由文本到令牌的大语言模型（LLM）和令牌到语音的条件流匹配模型组成，无需额外的音素化器和强制对齐器，且利用大规模数据能进一步提升性能，是首次将监督语音令牌引入 TTS 模型的尝试。

2025-07-09 22:12:00 478

原创 nvcc: command not found 最简单解决方法

nvcc是CUDA编译器，最简单的办法。

2025-07-08 12:05:20 328

原创语音大模型速览（一）F5-TTS

本文提出了 F5-TTS，一种基于流匹配和扩散 Transformer（DiT）的全非自回归文本到语音系统，它无需复杂的时长模型、文本编码器和音素对齐，通过 ConvNeXt 优化文本表示并引入推理时的 Sway Sampling 策略，解决了 E2 TTS 收敛慢和鲁棒性低的问题，实现了更快的训练和推理（RTF 达 0.15），在 10 万小时多语言数据集上训练后，展现出高度自然的零样本能力、无缝代码切换和速度控制效率，且已开源代码和检查点。

2025-07-04 21:39:12 626

原创 huggingface 加速

国内站替换：https://hf-mirror.com/

2025-07-04 17:39:27 400

原创 layer norm和 rms norm 对比

【代码】layer norm和 rms norm 对比。

2025-06-04 16:17:26 487

原创简洁理解 self-attention 和 cross-attention

Attention机制是一种动态加权融合信息的机制，广泛应用于深度学习模型中。Self-Attention和Cross-Attention是两种常见的注意力机制。Self-Attention的输入是同一个序列，通过计算序列内部元素之间的相关性来加权融合信息。Cross-Attention则处理两个不同的序列，通常用于序列间的信息交互，如文本到图像的生成任务。两者的核心步骤相似，包括线性变换、计算注意力分数、应用Softmax、加权融合等。Cross-Attention在Stable Diffusion等模型

2025-05-22 15:55:56 1130

原创 DiT中的 Adaptive Layer Normalization (adaLN) 讲解

论文《Scalable Diffusion Models with Transformers (DiT)》提出了一种基于Transformer的扩散模型，核心创新在于使用Adaptive Layer Normalization (adaLN)来融合时间步长（timestep）和标签（label）信息。传统的Transformer结构通过层归一化和多头注意力机制处理输入，而DiT在此基础上引入了adaLN，以更好地适应扩散模型的需求。

2025-05-16 20:46:18 2139

原创 librosa.load 容易遇到的采样率问题

参数指定时，不是指定重采样，而是告诉函数以 sample_rate 读取，比如如果原音频是 24k，sr=16000 时，那么读出来的音频是按照16k读取的，实际时长会变长。，此函数的sr不传时，默认是 22050.，然后再重采样一下成自己想要的采样率，比如。所以一般更好的方式是，先传。

2025-05-08 17:47:10 404

原创一个测试GPU可用的测试实例

【代码】一个测试GPU可用的测试实例。

2025-04-16 18:01:19 247

原创从一批视频里面抽取固定的第n帧图片（包含并行实现）

从文件夹的每个视频中抽取第N帧保存成图，用于视频生成训练

2025-04-10 16:13:38 443

原创解决docker的ubuntu系统中文乱码问题

遇到docker中的文件包含中文字符和文本行中有中文会显示乱码，用以下流程解决了

2025-04-03 16:26:43 754

原创位置编码再思考及rope来源

position embedding 和 rope

2025-03-25 15:56:56 394

原创 aws训练快速入门教程

Amazon Elastic Compute Cloud (Amazon EC2) 是一种提供可调节计算容量的 Web 服务 – 简单来说，就是 Amazon’s 数据中心内的服务器 – 您可以使用它来构建和托管您的软件系统。Amazon Elastic Compute Cloud（Amazon EC2）在 Amazon Web Services（AWS）云中按需提供可扩展的计算容量。使用 Amazon EC2 可以降低硬件成本，因此您可以更快地开发和部署应用程序。

2025-03-19 15:30:14 1442

原创 dockerfile 编写入门

Dockerfile是一个文本文件，其中包含了一系列的指令和参数，用于定义如何构建Docker镜像。一个良好编写的Dockerfile不仅可以确保镜像的构建过程高效、可靠，还可以使得镜像更加安全和易于维护。

2025-03-14 20:42:13 780

原创 FlashAttention CUDA不匹配问题（CUDA的正确安装）与编译卡住问题解决方法

在安装flash_attn的过程中，解决CUDA 版本不匹配

2025-03-04 19:26:29 4790

原创 when initializing HubertModel: [‘encoder.pos_conv_embed.conv.weight_g‘ 问题解决

encoder.pos_conv_embed.conv.weight_g 问题

2025-02-25 19:13:18 423

原创 pytorch预训练模型下载保存路径更改

如果没有预先下载好预训练模型，在运行这个代码后，自动下载预训练模型的。

2025-02-18 17:17:54 675

原创 linux查询文件名或文件内容中包含特定字符串的所有文件

使用 Linux 经常会遇到这种情况：只知道文件名或文件内容中包含某些特定的字符串，但是不知道具体的文件名。需要根据“特定的字符串”反向查找文件。

2024-12-18 14:34:46 3362

原创 python调用GPT-4o实时音频 Azure OpenAI GPT-4o Audio and /realtime

【代码】python调用GPT-4o实时音频 Azure OpenAI GPT-4o Audio and /realtime。

2024-12-03 11:26:29 818

原创使用FFmpeg生成高清gif图，降低网格和噪点

【代码】使用FFmpeg生成高清gif图，降低网格和噪点。

2024-12-02 14:36:04 359

原创 htop默认配置config

htop默认配置config。

2024-08-16 15:02:29 437

原创 pip install basicsr老是报错

【代码】pip install basicsr老是报错。

2024-07-12 11:24:40 992 3

原创 python一些进阶用法：hook 钩子函数以及Registry机制

本质来讲，这些高级用法都是编程经验中沉淀下来的常用范式，并不违背和创造了函数、类和传参的原理，只是巧妙运用了这些。一句话讲，register机制和 hook 都是函数/类调用和传参机制的一种灵活运用，将函数作为传参对象，进行回调和封装，通常扩展了或修改了原始函数的行为。

2024-06-28 11:20:58 480

原创 python 数据、曲线平滑处理——Savitzky-Golay 滤波器

高斯滤波是一种线性平滑滤波，适用于消除高斯噪声，广泛应用于图像处理的减噪过程。通俗的讲，高斯滤波就是对整幅图像进行加权平均的过程，每一个像素点的值，都由其本身和邻域内的其他像素值经过加权平均后得到。高斯滤波的具体操作是：用一个模板（或称卷积、掩模）扫描图像中的每一个像素，用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值。

2024-06-26 19:00:53 1270

原创使用ffmpeg调整视频分辨率/帧率并保持高清晰度

通过ffmpeg -i命令查看视频基本信息通过命令查看，原始视频信息。

2024-06-26 11:12:43 4423

原创 Mediapipe框架介绍及示例

推荐阅读：Mediapipe框架介绍及使用说明Mediapipe人脸关键点检测

2024-06-12 16:49:28 484

原创 TensorRT半精度（FP16）相关博客

几篇关于TensorRT fp16和debug的博客，记录一下：半精度（FP16）调试血泪总结ONNX-TensorRT 精度对齐tensorRT相关问题想提速但TensorRT的FP16不得劲？怎么办？在线支招

2024-05-21 15:57:46 608

空空如也

空空如也