STREAMVC: REAL-TIME LOW-LATENCY VOICE CONVERSION

最新推荐文章于 2024-09-27 17:31:02 发布

gkxaaa

最新推荐文章于 2024-09-27 17:31:02 发布

阅读量213

点赞数 1

文章标签：人工智能

本文链接：https://blog.csdn.net/gkxaaa/article/details/138812622

版权

重点：

在SoundStream backbone上实现VC
用Soft speech units代替PPG作为VC的输入（来自hubert的latent）
whitened f0增加稳定性，并减少音色泄漏（通过句级别的归一化，消除f0和speaker的关联性）

只用Soft speech units作为输入也可VC，但情感很平；
YIN算法提取F0，取不同阙值，没帧得到9个数值（类似于软标签）
F0在训练和推理，句级别归一化
用一个轻量的content encoder来预测hubert并取latent
learnable pooling 来得到全局speaker emb

流式推理：

提f0时，前后各一帧lookahead context window，3帧
模型输入s_t, 输出s_t-2；但流式只用到了前面一帧的state；即用s_t-1和s_t预测s_t-2
没看懂：为什么不能用s_t预测s_t呢？

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

gkxaaa

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

AC-VC: NON-PARALLEL LOW LATENCY PHONETIC POSTERIORGRAMS BASEDVOICE CONVERSION AC-VC：基于非并行低延时语音后处理的语音

weixin_38858860的博客

08-07

AC-VC：基于非并行低延时语音后处理的语音转换。

AAAI 2022 论文列表

热门推荐

gbstack08的专栏

02-15

2万+

链接及代码之后会更新 GitHub链接：https://github.com/gbstack/AAAI-2022-papers Scaled ReLU Matters for Training Vision Transformers Pichao Wang, Xue Wang, Hao Luo, Jingkai Zhou, Zhipeng Zhou, Fan Wang, Hao Li, Rong Jin Search Strategies for Topological Network Optimizat

参与评论您还未登录，请先登录后发表或查看评论

ACL2024 | StreamVoice：基于流式上下文感知语言建模的实时零样本语音转换

weixin_48827824的博客

06-05

989

流式零样本语音转换（streaming zero-shot voice conversion）是指能够实时的将输入语音转换成任意说话人的语音，且仅需要该说话人一句语音作为参考，且无需额外的模型更新。现有的零样本语音转换方法通常是为离线系统设计，难以满足实时语音转换应用对于流式能力的需求。近期基于语言模型（language model, LM）的方法在零样本语音生成（包括转换）上展现出卓越的性能，但是需要整句处理而局限于离线场景。近期，西工大音频语音与语言处理研究组（ASLP@NPU）与抖音合作的论文 “

【AI视野·今日Sound 声学论文速览第四十四期】Tue, 9 Jan 2024

TomRen

01-11

1101

AI视野·今日CS.Sound 声学论文速览 Tue, 9 Jan 2024 Totally 27 papers 👉上期速览✈更多精彩请移步主页 Daily Sound Papers DJCM: A Deep Joint Cascade Model for Singing Voice Separation and Vocal Pitch Estimation Authors Haojie Wei, Xueke Cao, Wenbo Xu, Tangpeng Dan, Yueguo Chen歌声

【论文学习笔记】《Deep Voice 2: Multi-Speaker Neural Text-to-Speech》

求求你们别卷了

02-05

1372

Deep Voice 2 论文学习文章目录Deep Voice 2 论文学习摘要 1 介绍 2 相关工作 3 单说话人 Deep Voice 2 4 带有可训练说话人嵌入的多说话人模型 5 结果 6 结论摘要本文介绍了一种利用低维可训练扬声器嵌入增强神经文本到语音的技术，以从单个模型产生不同的声音。 &nb

Microsoft Real-Time Communications: Protocols and Technologies

lionzl的专栏

01-24

3503

Microsoft Real-Time Communications: Protocols and Technologies Updated: July 03, 2003 By Ross Carter Abstract This paper is written for IT professionals and developers interested in

2024年顶会、顶刊SNN相关论文----------持续更新中

lanpeople的博客

12-23

6239

2024年脉冲神经网络（Spiking Neural Network，SNN）相关论文

Accelerate innovation with real-time data

just2gooo的博客

12-05

131

Thank you.

通信行业常用电器术语缩略语（abbr/acro） -----全面，接近专业词典了

weixin_42082222的博客

02-27

4447

通信行业常用电器术语缩略语（abbr/acro）原创qianxuedegushi 最后发布于2019-06-04 14:23:15 阅读数 159 收藏展开 LEC: linear echo canceller RVE: receive voice enhancement PVC：Per Vocoder Calibration 基于语音编解码器的校准 FENS：Far-End Noise...

【Fundamentals】Voice Signal Synthesis in MATLAB: Understanding Speech Synthesis Technologies and ...

# 2.1 Text-to-Speech (TTS) Engine Synthesis ## 2.1.1 Principles and Selection of TTS Engines A Text-to-Speech (TTS) engine is a software capable of transforming textual input into speech output....

IT英语4-计算机英语缩写术语

weixin_30394633的博客

04-20

7811

IT英语4-计算机英语缩写术语 1、CPU3DNow!（3D no waiting，无须等待的3D处理）AAM（AMD Analyst Meeting，AMD分析家会议）ABP（Advanced Branch Prediction，高级分支预测）ACG（Aggressive Clock Gating，主动时钟选择）AIS（Alternate Instruction Set，交...

[论文精读]AI-Guardian: Defeating Adversarial Attacks using Backdoors

m0_52911108的博客

09-27

1133

本文提出了AI-Guardian框架，本质是让模型预测结果受到后门控制，而很难被攻击者操纵，从而抵御对抗攻击。在模型训练阶段，AI-Guardian会针对原始训练样本生成一批后门样本（经过后门处理的样本），按标签双射关系为后门样本分配对应标签，实现后门注入；在模型预测阶段，AI-Guardian先对输入数据进行后门处理，然后将其输入到模型，根据模型输出结果、标签双射关系返回对输入数据真实标签的预测结果。

零售业的数字化转型与消费者体验升级

weixin_58820787的博客

09-24

974

在数字化浪潮的推动下，零售业正经历着前所未有的变革。数字化转型不仅为零售商带来了新的商业模式和运营效率的提升，更重要的是，它极大地提升了消费者的购物体验。金智维将探讨零售业如何通过数字化转型，实现线上线下融合、智能推荐、个性化服务等方面的升级，以满足消费者日益增长的需求。

Python精选200Tips：171-175

AnFany

09-26

1218

Python深度学习的项目

基于深度学习的图像修复算法

weixin_42605076的博客

09-26

595

基于深度学习的图像修复算法旨在通过学习和生成模型来填补图像中的缺失或损坏部分。

Her来了，OpenAI正式发布高级语音模式

shadowcz007的博客

09-25

465

OpenAI宣布将Advanced Voice Mode（AVM）扩展到更多付费用户，包括ChatGPT的Plus和Teams用户。该功能旨在使ChatGPT的语音交互更加自然，并新增五种新声音和改进的口音识别能力。虽然Sky声音因法律争议被移除，但AVM的整体设计和性能得到了提升。新版本不仅能在用户打断时立即停止回答，还能根据用户语音中的情感调整响应。此外，视频和屏幕共享功能暂未推出。AVM目前...

持续学习与创新能力的双重提升

thinkers

09-25

498

---

numpy is not available

STREAMVC: REAL-TIME LOW-LATENCY VOICE CONVERSION

重点 ：

重点：