语音
文章平均质量分 50
语音入门,声纹识别
大鱼不做程序猿
这个作者很懒,什么都没留下…
展开
-
批量将.flac格式转换为.wav等格式
批量将.flac格式转换为.wav等格式原创 2022-12-11 11:57:58 · 1098 阅读 · 1 评论 -
使用Opensmile提取特征
使用Opensmile提取特征下载opensmile在pycharm中编写代码import osimport numpy as np# 音频数据目录audio_path = 'C:/Users/18365/Desktop/python_work/plp_feature'# 用于存放生成特征文件的路径output_path = 'C:/Users/18365/Desktop/python_work/plp_feature'# 定义特征提取的配置文件feature_conf原创 2021-04-19 15:51:38 · 757 阅读 · 1 评论 -
mfcc提取
MFCC提取提取MFCC的过程预处理包括:预加重,分帧加窗等操作。预加重:平衡频谱,因为高频通常与较低频率相比具有较小的幅度避免在傅里叶变换操作过程中出现数值问题改善信号-噪声比消除发声过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰,分帧:在大多数情况下,语音信号是非平稳的,对整个信号进行傅里叶变换是没有意义的,因此我们会随着时间的推移丢失信号的频率轮廓。语音信号是短时平稳信号,因此我们在短时帧上进行傅里叶变换,通过连接相邻帧来获得信号原创 2021-03-06 13:00:37 · 634 阅读 · 1 评论 -
librosa绘制音频图
librosa绘制音频图今天偶然发现librosa库可以绘制音频特征相关图,作下记录和总结。import librosa.displayimport numpy as npimport matplotlib.pyplot as plt# 这里插入提取音频的路径y, sr = librosa.load(librosa.util.example_audio_file())# 使用stft频谱求Mel频谱D = np.abs(librosa.stft(y)) ** 2 # stft频谱S原创 2021-03-06 11:07:05 · 2665 阅读 · 1 评论 -
批量对目录下的所有文件进行重命名(python实现)
对一个目录下的所有wav文件按照顺序重命名import osdef myrename(path): file_list=os.listdir(path) i=0 for fi in file_list: old_name=os.path.join(path,fi) new_name=os.path.join(path,str(i)) + ".wav" os.rename(old_name,new_name) i+=原创 2021-01-19 13:26:40 · 765 阅读 · 0 评论 -
OSCHINA · Speaker-Recognition
OSCHINA · Speaker-Recognition原文链接1.GMM-UBM(混合高斯,通用背景模型)该模型,将声学特征投影到高维空间上,得到高维的均值超矢量。UBM采用大规模的说话人预料训练完成,并因此可以进行说话人的共性特征的描述。以UBM为初始模型,采用目标说话人数据进行基于最大后验概率的自适应训练,得到目标说话人的混合高斯模型。通过计算似然值的方法进行说话人打分,通过分值进行判决。实际中,如果遇到训练语音比较短或者语料比较少的情况,GMM模型的效果就不会有很好的效果。而GMM-UBM原创 2021-01-14 15:53:37 · 225 阅读 · 0 评论 -
声纹基础
从信号到特征-短时分析传统特征分析的不足在进行训练的过程中,我们总是需要将研究对象表示为固定维度的向量。该向量就被称为特征。传统上是将一整段音频信号(或长或短)作为全局特征。但是,对于语音信号来言,全局特征具有不稳定性,因此研究效果并不是很好。然而,语音具有短时平稳性,可以通过语音的局部特征进行训练,进而达到较好的效果。分帧这里的分帧与视频中的分帧概念类似。对于语音信号,我们一样可以将采样信号在时间轴上分割为很多短小的片段,这些片段就叫做帧。在分帧过程中,我们需要特别注意两个参数:帧本身的长度:帧原创 2021-01-13 15:05:10 · 304 阅读 · 0 评论 -
适合声纹识别入门的资料库
声纹识别今天发现了一个学习声纹识别相关方向的一个Github地址挺全面的 ,值得反复学习和入门这里有论文,开源代码,数据集介绍和下载链接等。具体请点击这里。原创 2020-11-30 09:39:33 · 268 阅读 · 0 评论 -
EER的基本知识和使用
文章目录@[toc]EER值求取ROC概念代码示例EER值求取EER:等错误概率是说话人识别中常用的评价标准,是错误接受率(FA)和错误拒绝率(FR)的一个相对平衡点的阈值点,这个阈值点可以作为实际使用阶段的固定阈值。def calculate_eer(y, y_score): # y denotes groundtruth scores,(真实标签) # y_score denotes the prediction scores.(经过softmax得到的标签) from s原创 2020-11-26 10:14:26 · 3477 阅读 · 0 评论 -
梅尔频谱和梅尔倒谱的初次理解和使用
在音频的特征提取中,经常会用到梅尔频谱和梅尔倒谱这里记录一下librosa.feature.melspectrogram和librosa.feature.mfcc的区别首先这里给出两个API的官方定义def melspectrogram( y=None, sr=22050, S=None, n_fft=2048, hop_length=512, win_length=None, window="hann", center=True,原创 2020-11-25 20:10:32 · 3986 阅读 · 2 评论 -
数据集下载链接(声纹识别部分数据集)
数据集下载链接VCTKLibriSpeech ASR corpushttp://www.openslr.org/12/Aishellhttp://www.openslr.org/33/Free ST Chinese Mandar In Corpushttps://www.openslr.org/38THCHS-30http://www.openslr.org/resources/18CN-Celebhttp://www.openslr.org/resources/82Vo原创 2020-11-20 18:53:28 · 1864 阅读 · 6 评论 -
语音预处理(相同话语不同人的对比)
显示同一段语音,不同说话人对比下效果波形图import waveimport matplotlib.pyplot as pltimport numpy as npfrom scipy.io import wavfile"""读取双通道波形并绘制波形图"""f = wavfile.read("./test1.wav")nframes = len(f[1]) #获取采样点数nchannels = 1 # 通道数=1framerate = f[0] # 获取采样频率wave_data原创 2020-11-20 18:46:11 · 351 阅读 · 3 评论 -
绘制整个语音的短时能量和一帧的短时能量对比
绘制整个语音的短时能量和一帧的短时能量对比import numpy as npimport waveimport matplotlib.pyplot as pltwlen = 512inc = 128f = wave.open('./data/orange/orange06.wav', 'rb')params = f.getparams()nchannels, sampwidth, framerate, nframes = params[:4]str_data = f.readframe原创 2020-10-27 16:50:43 · 946 阅读 · 0 评论 -
读取音频的双通道波形并绘制波形图及语谱图
读取双通道波形并绘制波形图import waveimport matplotlib.pyplot as pltimport numpy as np"""读取双通道波形并绘制波形图"""# 打开WAV音频f = wave.open("./audio/audio.wav", "rb")# 读取格式信息# (声道数、量化位数、采样频率、采样点数、压缩类型、压缩类型的描述)# (nchannels, sampwidth, framerate, nframes, comptype, compnam原创 2020-10-27 16:48:34 · 6235 阅读 · 5 评论