![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
语音信号处理
文章平均质量分 57
王延凯的博客
一名研究生,但不止于研究;
希望成长,但不仅仅是长大。
展开
-
numpy报错can‘t convert np.ndarray of type numpy.object_.解决方案
numpy报错can't convert np.ndarray of type numpy.object_.解决方案原创 2023-01-10 09:56:18 · 4039 阅读 · 1 评论 -
python三种常见的读取语音方法的速度对比
python 中3种常见的读取语音方法的速度对比及使用建议原创 2022-12-29 19:36:07 · 934 阅读 · 0 评论 -
python批量添加不同噪声(可调节不同信噪比)
在进行一些语音任务时,可能需要对我们的语音信号进行加噪,难免会用到批量对语音信号进行加噪,下面我实现了使用python批量对语音文件进行加噪,希望能对大家有所帮助.在这里需要修改main函数中的那几个路径和信噪比就可以批量添加啦~,祝大家使用愉快。原创 2022-10-14 09:38:15 · 2804 阅读 · 11 评论 -
matlab求取语音的基音频率、共振峰信息并将其标注在语谱图上
matlab求取语音的基音频率、 共振峰信息并将其标注在语谱图上原创 2022-05-03 16:50:27 · 6125 阅读 · 6 评论 -
python调用matlab的.m函数并获取返回参数
python调用matlab的.m函数,并返回数据结果原创 2022-03-25 21:26:21 · 3932 阅读 · 8 评论 -
python 批量去掉语音中的静音段
python批量去掉语音中的静音段,使用mfcc0参量进行端点检测,为平滑特征,对其进行中值滤波,最后可以灵活去除语音中的静音段原创 2021-12-02 15:27:33 · 8300 阅读 · 12 评论 -
基于VQ适量特征的说话人识别
基于VQ矢量量化的说话人识别流程图原创 2021-12-02 14:48:19 · 492 阅读 · 0 评论 -
提取IEMOCAP情感语料库标签
IEMOCAP语料库介绍该语料库包含的情感包括 anger, happiness, excitement, sadness, frustration, fear, surprise, other and neutral state分别用ang、hap、exc、sad、fru、fea、sur、oth、neu来表示如何查看标签数据进入文件夹 IEMOCAP\Session1\dialog\EmoEvaluation ,可以看到文件:这里以打开Ses01F_impro01.txt文件为例:该 t原创 2021-11-27 22:10:31 · 9896 阅读 · 38 评论 -
windows 使用cmd命令调用pesq.exe测量噪声语音及增强语音MOS评分
1.第一步 下载windows下的pesq.exe这个文件在csdn已经被人上传了,请戳我,pesq.exe文件下载路径~~2.单个测量MOS评分命令cmd进入pesq.exe所在文件夹下,然后执行以下命令,当然文件路径需要更改为自己的文件路径。pesq +16000 1.wav ./data/factory1_15dB.wav# 此处+16000表示的是语音采样率,# 1.wav表示纯净的语音文件,# ./data/factory1_15dB.wav 表示噪声状态下或增强后的语音文件执行原创 2021-07-17 15:51:21 · 1885 阅读 · 4 评论 -
基于VQ矢量量化的说话人识别(应用于门禁识别)
1.功能演示1.添加说话人2.删除说话人3.识别说话人,如果是系统内人员,显示开锁,如果是系统外人员,则不予开锁算法准确率96%以上。录制不全,只能显示30s ~_~!matlab代码部分核心代码function varargout = User_Desktop(varargin)% USER_DESKTOP MATLAB code for User_Desktop.fig% USER_DESKTOP, by itself, creates a new USER_DESK原创 2021-07-12 10:30:49 · 2364 阅读 · 10 评论 -
从 语音合成 到 语音克隆,你不了解的还有多少?
从 语音合成 到 语音克隆,你不了解的还有多少?1.初识Real_Time_Voice_Cloning近日学习之余看到一篇语音合成的github开源项目 请戳这里,github原文地址 ,论文地址 论文地址请戳这里 ,该项目是2019年开源的,平台使用tensorflow,2021年2月又将环境移植到pytorch环境。但我研究了这么长的语音,直到现在我才了解到这个工具,也是比较惋惜。2. 基本思路在这里我也不介绍过多了,只大概讲一下其算法流程以及 克隆原理在开始介绍之前,我按照我的理解原创 2021-07-11 22:12:58 · 5639 阅读 · 3 评论 -
语种识别公开语料库(可用于学术科研和项目研究)(自用)
1. VoxforgeVoxforge数据集下载地址:http://www.voxforge.org/zh2.Common Voice:Common Voice公开语料集下载:3.LibriVoxLibriVox语料库下载地址4.中文thchs30数据中文thchs30语料库下载:http://www.openslr.org/18/5.Slavic language recordingsSlavic language recordings 语种下载地址:6.Kaggle公开数据原创 2021-07-11 10:59:26 · 4813 阅读 · 0 评论 -
python绘制语谱图(不掉包实现)
1.绘制语谱图为方便使用,现将同学唐维康的代码做出如下修正,封装成类,可以灵活调用@作者:kingback@文件名称:MySpec.py@IDE:PyCharm@文件创建时间:2021-04-24 22:00:08@月份:4月import librosaimport numpy as npimport matplotlib.pyplot as pltclass MySpec(object): def __init__(self,filename,wlen,inc):原创 2021-04-25 10:36:50 · 2435 阅读 · 0 评论 -
python 批量切割语音
python批量切割语音文件(可以灵活控制切割长度)话不多少,直接上代码:def file_name(file_dir): ''' 输入文件夹名称,并返回该文件夹下所有语音文件的完整路径(list类型) :param file_dir: :return: ''' L = [] for root, dirs, files in os.walk(file_dir): for file in files: if f原创 2021-04-24 18:21:47 · 9250 阅读 · 7 评论 -
python批量读取某文件夹下所有语音文件的总时长
1.需求在进行语音相关方面的研究的时候,我们就需要统计一下我们各个文件夹下所有语音文件的总长度,但是一个一个的进行计算难免有些麻烦,想着有没有可以使用python批量化计算每个文件夹下的所有语音时长,于是便有了下边的这个代码。2.Python批量获取指定文件夹下所有语音总时长此处将代码公式,希望可以帮助到其他人。import osimport wavedef file_name(file_dir): ''' 输入文件夹名称,并返回该文件夹下所有语音文件的完整路径(list类型)原创 2021-04-23 20:50:39 · 7348 阅读 · 1 评论 -
python批量解压zip压缩文件夹
1.python批量解压zip压缩文件夹import zipfiledef un_zip(zip_filename,des_dir): ''' 解压压缩包至des_dir指定文件夹 :param zip_filename:输入的压缩包名字,例如a.zip :param des_dir: 解压到的位置:例如为 ./文件存储/ :return: ''' with zipfile.ZipFile(zip_filename, 'r') as zzz:原创 2021-04-21 13:50:18 · 719 阅读 · 0 评论 -
语音质量指标Python(PESQ、STOI、SegSNR、LLR、WSS、CD、LSD、CSIG、CBAK、COVL)
Speech#!/usr/bin/env python# -*- coding: utf-8 -*-'''@Time : 2020/9/13 16:53@Author : kingback@Site :@File : SEPM.py@Software: PyCharm'''import pysepmimport osimport numpy as npimport soundfile as sffrom tqdm import tqdm'''the i原创 2021-04-21 13:20:09 · 16613 阅读 · 30 评论 -
ffmpeg 去除音频文件中的静音部分
ffmpeg 去除音频文件中的静音部分0. 前提1. 使用ffmpeg去除音频静音1.1 python调用cmd命令1.2 直接使用cmd命令2.ffmpeg 官方使用手册0. 前提电脑已经安装ffmpeg且已将其配置为环境变量1. 使用ffmpeg去除音频静音1.1 python调用cmd命令import oscmd_commond="ffmpeg -i "+filename+" -af silenceremove=stop_periods=-1:stop_duration=0.2原创 2020-11-27 21:39:57 · 12452 阅读 · 2 评论 -
如何使用python调用ffmpeg 对语音进行操作
如何使用python调用ffmpeg 对语音进行操作1. 安装python库1.1 github地址1.2 如何安装?2. windows安装 ffmpeg2.1 下载ffmpeg并且安装2.2 将ffmpeg添加至环境变量2.3 验证ffmpeg是否安装成功3. python调用程序1. 安装python库1.1 github地址https://github.com/kkroening/ffmpeg-python1.2 如何安装?pip install ffmpeg-python2.原创 2020-10-23 22:27:31 · 1019 阅读 · 2 评论 -
python对语音文件加入高斯白噪声(含公式推导)
python对语音文件加入高斯白噪声(带公式推导)1. 信噪比概念及计算公式2.已知信噪比,如何去产生固定功率的噪声3.完整代码1. 信噪比概念及计算公式信噪比(Signal-to-noise ratio,缩写为 SNR 或 S/N),也称作信杂比或讯杂比。信噪比,为有用信号功率(Power of Signal)与噪声功率(Power of Noise)的比。因此为幅度(Amplitude)比的平方:SNR=PsignalPnoise=(AsignalAnoise)2SNR=\frac{P_{si原创 2020-07-20 14:27:40 · 13583 阅读 · 4 评论 -
高斯混合模型的详细求解过程---【3】
文章目录1.2.1.在上一篇文章中介绍了高斯混合模型的公式,但是在实际应用中每次迭代的公式又是如何出来的呢,抱着这个疑问,我也就写出了这篇博客,希望可以记录一下,如下所示,是多维高斯分布的分布公式:N(X⃗∣μ⃗,∑)=1(2π)D2⋅∣∑∣12⋅e−(X⃗−μ⃗)T⋅∑−1⋅(X⃗−μ⃗)2N(\vec{X}\mid\vec{\mu},{\sum})=\frac{1}{{(2\pi)}^...原创 2019-12-20 14:52:52 · 1125 阅读 · 0 评论 -
多维高斯分布---【2】
多维高斯分布1.一维高斯分布2.二维高斯分布3.多维高斯分布4.心声1.一维高斯分布\qquad在介绍二维高斯分布之前我们先介绍一下一维高斯分布的函数图像,如下所示:f(x)=12π⋅δ⋅e−(x−μ)22δ2f(x)= \frac{1}{\sqrt{2 \pi}\cdot \delta}\cdot e^{-\frac{{(x-\mu)}^2}{2\delta^2}}f(x)=2π⋅δ...原创 2019-12-12 16:23:08 · 2944 阅读 · 0 评论 -
高斯混合模型GMM---【1】
1.高斯混合模型概念高斯混合模型(Gaussian Mixture Model)是一种聚类算法,它是多个高斯分布函数的线性组合,通常用于解决同一集合下的数据包含多种不同的分布情况。高斯混合模型是指具有如下形式的概率分布模型:其中K为高斯混合模型中成分的个数,g为高斯分布密度,均值是μ\muμ协方差矩阵是∑k\sum{_k}∑k,另外ω\omegaω是每个成分的权重。例如如图下所示,是两...原创 2019-11-28 12:57:23 · 1884 阅读 · 1 评论 -
MFCC算法讲解及实现(matlab)
史上最详细的MFCC算法实现(附测试数据)1.matlab安装voicebox语音包2.MFCC原理讲解3.MFCC算法设计实现(matlab)3.1 .wav格式语音文件提取【x(200000*1)】3.2 预加重【x(200000*1)】3.3 分帧{S(301*1103)}3.4 加窗{C(301*1103)}3.5 傅里叶变换3.6 梅尔滤波器3.7 离散余弦变换4.1.matlab安装......原创 2019-10-24 12:43:47 · 53710 阅读 · 121 评论