- 博客(379)
- 资源 (1)
- 收藏
- 关注
原创 AIGC技术调研
既然编码是加噪声,那解码时就应该去掉噪声。DDPM 的解码器也不再是一个不可解释的神经网络,而是一个能预测若干个去噪结果的神经网络。
2025-05-29 14:19:13
457
1
原创 语音合成VC技术调研
两个极端,要么是一堆 loss 相加,要么只考虑 TTS 的 loss (如仅有一个 L1 Loss)可以考虑 content 信息 (需要用到 asr 模型), pitch 信息 (需要用到 F0 模型) -> StarGANv2-VC 等也可以完全当成是一个 TTS 模型求 loss, 不考虑生成的音频的 content 是否与 source audio 一致 -> 基于 PPG/SSL 的 VC、FragmentVC 系列等FreeVC。
2025-03-11 17:37:19
412
原创 audio 大模型 & bark 调研
可能因为训练数据比较干净,所以音质还可以,因为我测过 encodec 这个 codec 的鲁棒性其实会比较差,特别对于高质量的语音,高频还原比较差,因为这个我去年做过,不过没加语音的 refer [捂脸],参加过 icasp 的同学应该听过,去年 11 月有个俞老师 talk 分享过我们的用法[破涕为笑] Encodec 对这种数据编解码效果比较好,你可以去测测,如果用 tts 的高质量数据,它的 12 和 24kbps 出来的高频很差。MEL 标记输入的最大长度为 293,相当于 13 秒的音频。
2025-03-11 17:34:58
523
原创 PaperReading — 多模态基座模型
当我们提到多模态模型时,通常是指那些能够理解和处理两种或两种以上不同类型数据(如文本、图像、声音等)并进行交互的模型。多模态模型在处理和理解信息时会利用来自不同模态的数据,并可能在多种模态之间进行转换或融合。CLIP 则可以成为一个多模态模型。
2025-03-11 17:29:31
629
原创 SQL 学习笔记
语法SELECT 查询列表 # 7️⃣FROM 表1 别名 # 1️⃣连接类型 JOIN 表2 # 2️⃣ON 连接条件 # 3️⃣WHERE 筛选 # 4️⃣GROUP BY 分组列表 # 5️⃣HAVING 筛选 # 6️⃣ORDER BY 排序列表 # 8️⃣LIMIT 起始条目索引, 条目数;# 9️⃣。
2024-11-19 14:55:46
752
2
原创 【飞桨PaddleSpeech语音技术课程】— 多语言合成与小样本合成技术应用实践
【飞桨PaddleSpeech语音技术课程】— 多语言合成与小样本合成技术应用实践
2022-10-31 19:50:00
1815
原创 【飞桨PaddleSpeech语音技术课程】— 一句话语音合成全流程实践
【飞桨PaddleSpeech语音技术课程】— 一句话语音合成全流程实践
2022-10-31 18:31:02
5387
原创 【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践
【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践
2022-10-31 17:25:29
4963
原创 【飞桨PaddleSpeech语音技术课程】— 语音识别-流式服务-模型部分
【飞桨PaddleSpeech语音技术课程】— 语音识别-流式服务-模型部分
2022-10-28 16:22:58
2774
原创 【飞桨PaddleSpeech语音技术课程】— 语音识别-Transformer
【飞桨PaddleSpeech语音技术课程】— 语音识别-Transformer
2022-10-28 16:06:13
2668
原创 【飞桨PaddleSpeech语音技术课程】— 语音识别-Deepspeech2
【飞桨PaddleSpeech语音技术课程】— 语音识别-Deepspeech2
2022-10-28 15:35:14
3693
原创 PaddleSpeech 实现多种卡通音色和方言的中英文混合 TTS
🎉 PaddleSpeech 实现多种卡通音色和方言的中英文混合 TTS #2492
2022-10-26 14:28:45
2247
原创 【SpeechX—统一高性能语音部署工具】SpeechX Architecture
【SpeechX—统一高性能语音部署工具】SpeechX Architecture
2022-10-26 11:06:57
1154
原创 PaddleSpeech TTS 设计要素 — 训练组件
主要讲述 PaddleSpeech TTS 的和训练相关的组件,以及我们为何如此设计它。如果你熟悉 chainer, 可以看出我们受到 chianer 的设计风格的影响。虽然这也不是 chainer 独此一家,我们也参考了 torch lightning 等专门帮忙解决训练问题的库,以及领域专用的库如 detectron2 等为了方便自己的模型开发而作出的设计。总体的设计原则是简单直观,可扩展性强,学习难度不高(这里需要斟酌,有些设计上手是有一点难度,但是理解了其设计,用起来将会很好用。)
2022-10-25 12:18:47
777
原创 PaddleSpeech TTS 设计要素 — 配置组件
主要讲述和配置文件及其解析,命令行参数解析,配置在程序内的呈现方式的选择和作出这些选择的考虑。
2022-10-25 11:59:00
787
原创 211. Add and Search Word - Data structure design(python+cpp)(前缀树的升级版)
题目:Design a data structure that supports the following two operations: void addWord(word) bool search(word)search(word) can search a literal word or a regular expression string containing only le...
2018-11-22 23:28:50
328
原创 692. Top K Frequent Words(python+cpp)(字典树统计)
题目:Given a non-empty list of words, return the k most frequent elements.Your answer should be sorted by frequency from highest to lowest. If two words have the same frequency, then the word with th...
2018-11-22 19:58:50
418
原创 421. Maximum XOR of Two Numbers in an Array(python+cpp)(包含前缀树解法)
题目:Given a non-empty array of numbers, a0, a1, a2, … , an-1, where 0 ≤ ai < 231.Find the maximum result of ai XOR aj, where 0 ≤ i, j < n.Could you do this in O(n) runtime?Example:Input: [...
2018-11-22 17:13:07
262
原创 648. Replace Words(python+cpp)(需要学习一下前缀树)
题目:In English, we have a concept called root, which can be followed by some other words to form another longer word - let’s call this word successor. For example, the root an, followed by other, whi...
2018-11-22 11:19:49
294
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人