CQCC

最新推荐文章于 2023-02-08 21:38:21 发布

开土拓疆

最新推荐文章于 2023-02-08 21:38:21 发布

阅读量4.1k

点赞数 5

分类专栏：学习文章标签：特征提取语音识别声纹识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39011425/article/details/103083324

版权

CQCC（Constant Q Cepstral Coefficients）是源于音乐处理领域的特征提取技术，因其对时间分辨率的可变性和在模仿攻击检测中的可靠性而受到关注。它在ASV（Automatic Speaker Verification）中对抗replay、voice conversion、speech synthesis等攻击。CQCC相比FFT，其数据量小，更能提取谐波模式，且与基频无关，适合计算基频。然而，CQT的计算和实现相对复杂。新版本的CQCC采用了窗可变宽度和非堆叠方法，进一步提升其性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

CQCC

1. abstract

CQCC特点，时间分辨率可变
优点是能够可靠捕获模仿攻击的一些信息，并且他的结构对用例情景和模仿攻击同时敏感（以往的仿模仿的系统没有和用例情景结合）

2. Introduction

ASV面临的攻击：

replay
voice conversion
speech synthesis
impersonation
一般情况下可以通过特征提取和模式识别的作为对策，但最好是研究一种新的具有鲁棒性的特征，因此用到了CQT，来自音乐处理领域（有空可以看一看他的论文）

然后看一下FFT和CQT的时间频率分辨率的对比：
在这里插入图片描述
究竟为什么CQT适合做音乐处理，轨道分离？并且CQT的缺点又是什么，需要看其中的引文。
WIKI上的CQT和FFT的对比汇总：（他 = CQT）

他的数据量少
他的计算和实现比较复杂
他能提取乐器的特征，谐波的模式，和基频无关
他更符合人的听觉感官
可以用他来计算基频

3. computation of CQT

<

最低0.47元/天解锁文章

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。