![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
语音识别
文章平均质量分 69
王延凯的博客
一名研究生,但不止于研究;
希望成长,但不仅仅是长大。
展开
-
基于VQ矢量量化的说话人识别(应用于门禁识别)
1.功能演示1.添加说话人2.删除说话人3.识别说话人,如果是系统内人员,显示开锁,如果是系统外人员,则不予开锁算法准确率96%以上。录制不全,只能显示30s ~_~!matlab代码部分核心代码function varargout = User_Desktop(varargin)% USER_DESKTOP MATLAB code for User_Desktop.fig% USER_DESKTOP, by itself, creates a new USER_DESK原创 2021-07-12 10:30:49 · 2363 阅读 · 10 评论 -
从 语音合成 到 语音克隆,你不了解的还有多少?
从 语音合成 到 语音克隆,你不了解的还有多少?1.初识Real_Time_Voice_Cloning近日学习之余看到一篇语音合成的github开源项目 请戳这里,github原文地址 ,论文地址 论文地址请戳这里 ,该项目是2019年开源的,平台使用tensorflow,2021年2月又将环境移植到pytorch环境。但我研究了这么长的语音,直到现在我才了解到这个工具,也是比较惋惜。2. 基本思路在这里我也不介绍过多了,只大概讲一下其算法流程以及 克隆原理在开始介绍之前,我按照我的理解原创 2021-07-11 22:12:58 · 5638 阅读 · 3 评论 -
语种识别公开语料库(可用于学术科研和项目研究)(自用)
1. VoxforgeVoxforge数据集下载地址:http://www.voxforge.org/zh2.Common Voice:Common Voice公开语料集下载:3.LibriVoxLibriVox语料库下载地址4.中文thchs30数据中文thchs30语料库下载:http://www.openslr.org/18/5.Slavic language recordingsSlavic language recordings 语种下载地址:6.Kaggle公开数据原创 2021-07-11 10:59:26 · 4809 阅读 · 0 评论 -
python读取sphere语音文件
在进行语音处理的时候,有时候需要处理sphere的语音文件,如果直接读取wav问价是无法读取出的,可以使用以下代码进行转换:# coding = utf-8import numpy as npimport ctypesdef read_sphere_wav(file_name): wav_file = open(file_name, 'rb') raw_header = wav_file.read(1024).decode('utf-8') raw_data = wav原创 2021-04-20 20:25:22 · 380 阅读 · 0 评论 -
python提取mfcc参数(python_speech_features和librosa两个包速度比较)
1.比较代码import librosaimport osimport timeimport numpy as npimport scipy.io.wavfile as wavimport python_speech_featuresfrom python_speech_features import mfcc#读取某文件夹下的所有.wav文件,并返回文件全称def file_name(file_dir): L = [] for root, dirs, files in原创 2021-04-07 13:28:09 · 9700 阅读 · 14 评论 -
matlab对语音进行基音检测(基于matlab voicebox 工具包)
0.背景研究基音频率, 简称基频, 它决定了语音的音高. 在语音信号处理中, 基频信息可应用于语音识别、语音压缩编码以及语音分离等领域。2014年Gonzalez 提出了非线性地基因检测语谱图特征PEFAC, 截至目前该特征已被证明具有较好的鲁棒性.且被广泛的应作基音检测和语音识别特征,近些年一些学者将PEFAC语谱图输入到CNN,DNN等深度神经网络中进行各项语音实验。短时语音信号可以表示为一系列谐波的加权和, 其中第1 个谐波即为基频, 记做F0, 其他谐波均为F0 的整数倍.在上边的语谱图中,原创 2021-04-01 20:01:03 · 2419 阅读 · 0 评论 -
ffmpeg 去除音频文件中的静音部分
ffmpeg 去除音频文件中的静音部分0. 前提1. 使用ffmpeg去除音频静音1.1 python调用cmd命令1.2 直接使用cmd命令2.ffmpeg 官方使用手册0. 前提电脑已经安装ffmpeg且已将其配置为环境变量1. 使用ffmpeg去除音频静音1.1 python调用cmd命令import oscmd_commond="ffmpeg -i "+filename+" -af silenceremove=stop_periods=-1:stop_duration=0.2原创 2020-11-27 21:39:57 · 12442 阅读 · 2 评论 -
音频分离Spleeter的安装
音频分离Spleeter的安装1.环境依赖及建立(需要已安装anaconda)1.0 项目源地址(github地址)1.1 创建虚拟环境1.2 激活虚拟环境1.3 conda 安装spleeter1.4 下载一个示例音乐1.5 将该音乐分离为两部分1.5.1 报错:No module named numba.decorators1.5.2 解决方案:1.6 下载分类模型1.6.1报错ValueError:Can't load save_path when it is None.1.6.2 解决方案:1.6.原创 2020-08-10 11:06:31 · 3683 阅读 · 0 评论 -
python对语音文件加入高斯白噪声(含公式推导)
python对语音文件加入高斯白噪声(带公式推导)1. 信噪比概念及计算公式2.已知信噪比,如何去产生固定功率的噪声3.完整代码1. 信噪比概念及计算公式信噪比(Signal-to-noise ratio,缩写为 SNR 或 S/N),也称作信杂比或讯杂比。信噪比,为有用信号功率(Power of Signal)与噪声功率(Power of Noise)的比。因此为幅度(Amplitude)比的平方:SNR=PsignalPnoise=(AsignalAnoise)2SNR=\frac{P_{si原创 2020-07-20 14:27:40 · 13580 阅读 · 4 评论 -
python 语音处理工具包AudioSegment的基本使用
python 语音处理工具包AudioSegment的基本使用1.AudioSegment库的安装2.AudioSegment库的使用3.后续~1.AudioSegment库的安装参考网址: pydub官方安装教程参考网址:使用pydub报错RuntimeWarning参考网址: AudioSegment官方使用手册2.AudioSegment库的使用from pydub import AudioSegment加载语音文件#可以看到读取文件有很多方式,有直接fr原创 2020-06-22 14:30:57 · 25863 阅读 · 9 评论 -
python获取语音的mfccs参数
python获取语音的mfccs参数1. 安装librosa2.使用librosa获取音频的mfccs参数1. 安装librosa参考网址1.:Python音频处理包——Librosa的安装与使用参考网址2.:librosa的官方tutorial网址(使用手册):以下是我的安装截图:2.使用librosa获取音频的mfccs参数参考网址3: 音频处理库—librosa的安装与使用import librosa.displayimport matplotlib.pyplot as pl原创 2020-06-07 17:57:42 · 836 阅读 · 1 评论 -
解读kaldi中mfcc源函数
测试1.111.11原创 2020-03-01 17:05:59 · 858 阅读 · 2 评论 -
(kaldi、matlab、自己编写的)三种不同方式得到的mfcc数据之性能比较
(kaldi、matlab、自己编写的)三种不同方式得到的mfcc数据之性能比较1.绘制kaldi方式提取出的mfcc特征值1.1 将本地的mfcc数据读入matlab2.绘制matlab调用函数产生的mfcc特征值2.1 求取帧长和帧移2.2 绘制结果&显示3.绘制自己编写的matlab函数提取出来的mfcc特征值4.三种结果比较&结论在之前的博客中分别实现了使用matlab编...原创 2020-02-25 18:18:07 · 1912 阅读 · 0 评论 -
语音识别之调用Googel和IBM的api
语音识别之调用googel和IBM的api1.模块介绍2.SR模块之recognize_google的使用(调用google语音识别api)3.IBM语音识别库ibm_watson的安装及使用3.1 安装ibm_watson3.2 申请IBM-Cloud账号3.3测试实例4.总结1.模块介绍近期在语音识别的过程中还了解到python 中有一个SpeechRecognition包,它集合了几个语...原创 2020-02-12 21:10:46 · 1632 阅读 · 3 评论 -
从零开始语音识别之SpeechRecognition模块安装
1.python安装SpeechRecognition语音识别模块在使用python进行语音识别的时候,SpeechRecognition函数库也是一个经常会被用到的一个函数库,下面演示我在安装这个库时遇到的问题,以及解决方案。希望可以帮助大家。出现问题,网络连接443,采用离线下载再使用pip安装的方式,网络443问题如下所示:使用如下命令pip install D:\Google下...原创 2020-01-31 21:37:38 · 16935 阅读 · 1 评论