自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(379)
  • 资源 (1)
  • 收藏
  • 关注

原创 AIGC技术调研

既然编码是加噪声,那解码时就应该去掉噪声。DDPM 的解码器也不再是一个不可解释的神经网络,而是一个能预测若干个去噪结果的神经网络。

2025-05-29 14:19:13 457 1

原创 语音合成VC技术调研

两个极端,要么是一堆 loss 相加,要么只考虑 TTS 的 loss (如仅有一个 L1 Loss)可以考虑 content 信息 (需要用到 asr 模型), pitch 信息 (需要用到 F0 模型) -> StarGANv2-VC 等也可以完全当成是一个 TTS 模型求 loss, 不考虑生成的音频的 content 是否与 source audio 一致 -> 基于 PPG/SSL 的 VC、FragmentVC 系列等FreeVC。

2025-03-11 17:37:19 412

原创 audio 大模型 & bark 调研

可能因为训练数据比较干净,所以音质还可以,因为我测过 encodec 这个 codec 的鲁棒性其实会比较差,特别对于高质量的语音,高频还原比较差,因为这个我去年做过,不过没加语音的 refer [捂脸],参加过 icasp 的同学应该听过,去年 11 月有个俞老师 talk 分享过我们的用法[破涕为笑] Encodec 对这种数据编解码效果比较好,你可以去测测,如果用 tts 的高质量数据,它的 12 和 24kbps 出来的高频很差。MEL 标记输入的最大长度为 293,相当于 13 秒的音频。

2025-03-11 17:34:58 523

原创 PaperReading — 多模态基座模型

当我们提到多模态模型时,通常是指那些能够理解和处理两种或两种以上不同类型数据(如文本、图像、声音等)并进行交互的模型。多模态模型在处理和理解信息时会利用来自不同模态的数据,并可能在多种模态之间进行转换或融合。CLIP 则可以成为一个多模态模型。

2025-03-11 17:29:31 629

原创 SQL 学习笔记

语法SELECT 查询列表 # 7️⃣FROM 表1 别名 # 1️⃣连接类型 JOIN 表2 # 2️⃣ON 连接条件 # 3️⃣WHERE 筛选 # 4️⃣GROUP BY 分组列表 # 5️⃣HAVING 筛选 # 6️⃣ORDER BY 排序列表 # 8️⃣LIMIT 起始条目索引, 条目数;# 9️⃣。

2024-11-19 14:55:46 752 2

原创 【飞桨PaddleSpeech语音技术课程】— 多语言合成与小样本合成技术应用实践

【飞桨PaddleSpeech语音技术课程】— 多语言合成与小样本合成技术应用实践

2022-10-31 19:50:00 1815

原创 【飞桨PaddleSpeech语音技术课程】— 一句话语音合成全流程实践

【飞桨PaddleSpeech语音技术课程】— 一句话语音合成全流程实践

2022-10-31 18:31:02 5387

原创 【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践

【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践

2022-10-31 17:25:29 4963

原创 【飞桨PaddleSpeech语音技术课程】— 语音合成

【飞桨PaddleSpeech语音技术课程】— 语音合成

2022-10-28 21:43:39 3807 2

原创 【飞桨PaddleSpeech语音技术课程】— 语音翻译

【飞桨PaddleSpeech语音技术课程】— 语音翻译

2022-10-28 20:24:58 1913

原创 【飞桨PaddleSpeech语音技术课程】— 语音识别-定制化识别

【飞桨PaddleSpeech语音技术课程】— 语音识别-定制化识别

2022-10-28 19:56:17 1898

原创 【飞桨PaddleSpeech语音技术课程】— 语音识别-流式服务

【飞桨PaddleSpeech语音技术课程】— 语音识别-流式服务

2022-10-28 16:44:05 5111 2

原创 【飞桨PaddleSpeech语音技术课程】— 语音识别-流式服务-模型部分

【飞桨PaddleSpeech语音技术课程】— 语音识别-流式服务-模型部分

2022-10-28 16:22:58 2774

原创 【飞桨PaddleSpeech语音技术课程】— 语音识别-Transformer

【飞桨PaddleSpeech语音技术课程】— 语音识别-Transformer

2022-10-28 16:06:13 2668

原创 【飞桨PaddleSpeech语音技术课程】— 语音识别-Deepspeech2

【飞桨PaddleSpeech语音技术课程】— 语音识别-Deepspeech2

2022-10-28 15:35:14 3693

原创 【飞桨PaddleSpeech语音技术课程】— 声纹检索系统与实践

【飞桨PaddleSpeech语音技术课程】— 声纹检索系统与实践

2022-10-27 15:49:13 1908

原创 【飞桨PaddleSpeech语音技术课程】— 语音唤醒

【飞桨PaddleSpeech语音技术课程】— 语音唤醒

2022-10-27 15:16:30 2822

原创 【飞桨PaddleSpeech语音技术课程】— 声音分类

【飞桨PaddleSpeech语音技术课程】— 声音分类

2022-10-27 14:05:21 3166 1

原创 PaddleSpeech 处理 SSML 输入

尝试 PaddleSpeech 处理 SSML 输入

2022-10-26 15:36:22 736

原创 PaddleSpeech 实现多种卡通音色和方言的中英文混合 TTS

🎉 PaddleSpeech 实现多种卡通音色和方言的中英文混合 TTS #2492

2022-10-26 14:28:45 2247

原创 使用 PaddleSpeech 训练一个自己的 TTS 模型

使用 PaddleSpeech 训练一个自己的 TTS 模型

2022-10-26 13:40:28 4012 3

原创 【SpeechX—统一高性能语音部署工具】SpeechX Architecture

【SpeechX—统一高性能语音部署工具】SpeechX Architecture

2022-10-26 11:06:57 1154

原创 PaddleSpeech 全链路声纹识别系统 PP-VPR

全链路声纹识别系统

2022-10-26 10:07:30 819

原创 PaddleSpeech 流式语音识别系统 PP-ASR

流式语音识别系统

2022-10-26 10:07:16 2716

原创 PaddleSpeech 流式语音合成系统 PP-TTS

流式语音合成系统

2022-10-25 17:09:59 3935

原创 【SpeechX—统一高性能语音部署工具】SpeechX Custom ASR

PaddleSpeech SpeechX 的介绍

2022-10-25 16:52:37 449

原创 基于规则的语音合成中文文本前端设计【2】

基于规则的语音合成中文文本前端设计,参考一般的流程,把文本前端分为4个阶段

2022-10-25 16:26:52 790

原创 基于规则的语音合成中文文本前端设计

语音合成经典模型结构介绍

2022-10-25 15:52:07 581

原创 语音合成经典模型结构介绍

语音合成经典模型结构介绍

2022-10-25 15:36:49 1260

原创 PaddleSpeech TTS 设计要素 — 实验输出目录

每次进行一个实验的时候,需要指定一个输出目录,目录结构如下:最好遵循这个规范。

2022-10-25 12:45:07 232

原创 PaddleSpeech TTS 设计要素 — 训练组件

主要讲述 PaddleSpeech TTS 的和训练相关的组件,以及我们为何如此设计它。如果你熟悉 chainer, 可以看出我们受到 chianer 的设计风格的影响。虽然这也不是 chainer 独此一家,我们也参考了 torch lightning 等专门帮忙解决训练问题的库,以及领域专用的库如 detectron2 等为了方便自己的模型开发而作出的设计。总体的设计原则是简单直观,可扩展性强,学习难度不高(这里需要斟酌,有些设计上手是有一点难度,但是理解了其设计,用起来将会很好用。)

2022-10-25 12:18:47 777

原创 PaddleSpeech TTS 设计要素 — 数据组件

PaddleSpeech TTS 内使用的数据格式,数据处理惯例的说明。

2022-10-25 12:04:36 802

原创 PaddleSpeech TTS 设计要素 — 配置组件

主要讲述和配置文件及其解析,命令行参数解析,配置在程序内的呈现方式的选择和作出这些选择的考虑。

2022-10-25 11:59:00 787

原创 语音识别 CTC Loss

语音识别 CTC Loss

2022-10-25 10:40:31 776

原创 语音合成 GAN Vocoders 总览

语音合成 GAN Vocoders 总览

2022-10-24 20:59:36 950

原创 语音合成 g2p 字典设计

PaddleSpeech g2p 发音字典设计原理

2022-10-24 20:17:28 1581

原创 211. Add and Search Word - Data structure design(python+cpp)(前缀树的升级版)

题目:Design a data structure that supports the following two operations: void addWord(word) bool search(word)search(word) can search a literal word or a regular expression string containing only le...

2018-11-22 23:28:50 328

原创 692. Top K Frequent Words(python+cpp)(字典树统计)

题目:Given a non-empty list of words, return the k most frequent elements.Your answer should be sorted by frequency from highest to lowest. If two words have the same frequency, then the word with th...

2018-11-22 19:58:50 418

原创 421. Maximum XOR of Two Numbers in an Array(python+cpp)(包含前缀树解法)

题目:Given a non-empty array of numbers, a0, a1, a2, … , an-1, where 0 ≤ ai < 231.Find the maximum result of ai XOR aj, where 0 ≤ i, j < n.Could you do this in O(n) runtime?Example:Input: [...

2018-11-22 17:13:07 262

原创 648. Replace Words(python+cpp)(需要学习一下前缀树)

题目:In English, we have a concept called root, which can be followed by some other words to form another longer word - let’s call this word successor. For example, the root an, followed by other, whi...

2018-11-22 11:19:49 294

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除