![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
语音
爱吃素的武士
这个作者很懒,什么都没留下…
展开
-
伪造语音检测数据集
伪造语音检测数据集原创 2022-05-21 20:58:20 · 2965 阅读 · 8 评论 -
统计Pytorch模型参数
model = resnext50_32x4d()total = sum([param.nelement() for param in model.parameters()]) print("total param: {:.2f}M".format(total/1e6)) #总共的参数数量原创 2022-04-09 11:39:15 · 256 阅读 · 0 评论 -
音频滤波器
音频中各种滤波器原创 2022-03-09 18:00:42 · 713 阅读 · 0 评论 -
语音中pooling总结(转载)
声纹识别中pooling总结_Mr.Gao的博客-CSDN博客1、Statistics Poolinghttp://danielpovey.com/files/2017_interspeech_embeddings.pdfThe statistics pooling layer calculates the mean vector µ as well as the second-order statistics as the standard deviation vector σ ove.转载 2021-11-11 05:30:36 · 435 阅读 · 0 评论 -
语音算法论文中frame-level,segment-level,utterance-level fearure
语音是非平稳信号,通过分帧可以认为每帧信号近似为平稳信号,然后就可以在一帧上提取特征。这种就叫做帧级别特征。segmental level的特征应该是指多帧特征,比如音素特征就是segmental level的,而utterance level的就是指一句话上的特征,就有很多帧,例如说话人的特征就是utterance level的。...原创 2021-10-27 14:59:52 · 2850 阅读 · 1 评论 -
Python常用音频库
LibrosaSpafeScipyPython_speech_featuresSound_file原创 2021-08-06 05:10:49 · 466 阅读 · 0 评论 -
设置语谱图频率范围
https://www.mathworks.com/matlabcentral/answers/12763-can-i-set-a-range-for-spectrogram-analysishttps://blog.csdn.net/qq_42815385/article/details/89095135原创 2021-05-23 17:40:15 · 296 阅读 · 0 评论 -
python 语音特征提取库spafe
最近发现python中有一个语音特征提取库spafe,旨在简化音频中的特征提取,似乎挺好用的,准备试试。涵盖了MFCC,IMFCC,GFCC,LFCC,PNCC,PLP等。它还提供了各种滤波器组模块(Mel,Bark和Gammatone滤波器组)和其他频谱统计信息。...原创 2021-04-22 21:38:14 · 1955 阅读 · 0 评论 -
频谱相关的图像的坐标轴含义
信号类型 横轴 纵轴 频谱(spectrum) 频率(frequency) 幅度(amplitude) 相位频谱(spectrogram) 频率(frequency) 相位(phase) 倒谱(cepstrum) 倒频率(quefrency) 幅度(amplitude) 时频谱(spectrogram) 语谱图 声谱图 时间(time) 频率(quefrency) 功率谱(power spectrum)原创 2020-10-31 15:42:26 · 4924 阅读 · 2 评论 -
语音信号处理中常见的频率非线性变换刻度
1.线性2.对数3.Mle4.Bark5.ERB6.Period原创 2020-10-31 14:55:15 · 341 阅读 · 0 评论 -
python中找不到模块的可能原因
比如librosa.display模块并不默认包含在librosa所以下面这两句在python中都要加入importlibrosaimportlibrosa.display原创 2020-10-30 20:04:06 · 1126 阅读 · 0 评论 -
python 音频特征提取工具库
1.LibROSA2.pyAudioAnalysis3.python_speech_features原创 2020-10-27 21:27:38 · 303 阅读 · 0 评论 -
MFCC和语谱图的关系
链接:https://www.zhihu.com/question/370985747/answer/1046843830语谱图一般口语上说的是语音的log谱特征,就是你用audition或者Audacity看到的横轴是时间,纵轴是频域的图像。简单看一下语音特征的提取过程就可以知道这两者之间的关系了:对语音序列做STFT,其中包括分帧,加窗和对每一帧的DFT变换,一般在语音识别里面会在加窗之后加一步预加重,输出的结果是复数(DFT的原因)。 STFT的结果取模称为线性谱,再加log称为log谱,.原创 2020-10-28 21:52:53 · 1283 阅读 · 0 评论 -
音频处理工具SOX windows下安装使用
参考文献:Windows下sox的安装和使用方法https://blog.csdn.net/weixin_42997646/article/details/87969705SoX 音频处理工具使用方法https://blog.csdn.net/qq_39516859/article/details/87980189原创 2020-10-19 15:46:40 · 783 阅读 · 0 评论 -
初学音频处理中遇到的问题(更新中)
1.rate,x = scipy.io.wavfile.read('file') 和f,t,z=scipy.signal.stft(x, fs =rate,window ='hann')是读取音频和计算短时傅里叶变换的函数。运行完成后在绘制是频谱图那里却遇到了问题:too many values to unpack (expected 2)。我用生成的正弦波形那里却没有问题。经过不断的研究,终于发现了读取的音频是六声道的,要先转化成单声道才可以运行。...原创 2020-10-22 20:32:06 · 359 阅读 · 0 评论 -
Kaldi环境搭建(更新中)
1.https://www.jianshu.com/p/e337120c5885原创 2020-10-23 15:14:44 · 146 阅读 · 0 评论