王延凯的博客-CSDN博客

IEMOCAP语料库介绍该语料库包含的情感包括 anger, happiness, excitement, sadness, frustration, fear, surprise, other and neutral state分别用ang、hap、exc、sad、fru、fea、sur、oth、neu来表示如何查看标签数据进入文件夹 IEMOCAP\Session1\dialog\EmoEvaluation ，可以看到文件：这里以打开Ses01F_impro01.txt文件为例：该 t

2021-11-27 22:10:31 10211 38

原创深度学习过拟合及如何防止过拟合

0.过拟合深度学习模型的过拟合通常是指针对设计好的深度学习网络，在使用训练数据集训练时，在训练数据集上可以获得很高的识别精度（针对分类问题），或者很低的均方根误差（很对回归问题），但是把训练好的模型应用于测试集进行预测时，预测效果往往不是很理想。我们称这种现象为过拟合。1.如何防止过拟合1.1 增加数据量更多的训练样本通常会使得模型更加稳定，所以训练样本的增加不仅可以得到更有效的训练结果，也能在一定程度上防止模型过拟合，增强网络的泛化能力。，例如在图像的分类任务中，物体在图像中的位置、姿态、尺度、图

2021-11-19 16:34:49 4795

原创 html网页调用cmd命令行并执行命令（亲测可用）

html调用cmd命令行并执行命令（亲测可用） <html xmlns="http://www.w3.org/1999/xhtml"><head><meta http-equiv="Content-Type" content="text/html; charset=gb2312" /><title>测试php+js调用cmd命令行</title></head> <body> <a href="#"

2021-09-27 15:23:20 16798 9

原创 windows 使用cmd命令调用pesq.exe测量噪声语音及增强语音MOS评分

1.第一步下载windows下的pesq.exe这个文件在csdn已经被人上传了，请戳我，pesq.exe文件下载路径~~2.单个测量MOS评分命令cmd进入pesq.exe所在文件夹下，然后执行以下命令，当然文件路径需要更改为自己的文件路径。pesq +16000 1.wav ./data/factory1_15dB.wav# 此处+16000表示的是语音采样率，# 1.wav表示纯净的语音文件，# ./data/factory1_15dB.wav 表示噪声状态下或增强后的语音文件执行

2021-07-17 15:51:21 1966 4

原创基于VQ矢量量化的说话人识别（应用于门禁识别）

1.功能演示1.添加说话人2.删除说话人3.识别说话人，如果是系统内人员，显示开锁，如果是系统外人员，则不予开锁算法准确率96%以上。录制不全，只能显示30s ~_~!matlab代码部分核心代码function varargout = User_Desktop(varargin)% USER_DESKTOP MATLAB code for User_Desktop.fig% USER_DESKTOP, by itself, creates a new USER_DESK

2021-07-12 10:30:49 2485 10

原创从语音合成到语音克隆，你不了解的还有多少？

从语音合成到语音克隆，你不了解的还有多少？1.初识Real_Time_Voice_Cloning近日学习之余看到一篇语音合成的github开源项目请戳这里，github原文地址，论文地址论文地址请戳这里，该项目是2019年开源的，平台使用tensorflow，2021年2月又将环境移植到pytorch环境。但我研究了这么长的语音，直到现在我才了解到这个工具，也是比较惋惜。2. 基本思路在这里我也不介绍过多了，只大概讲一下其算法流程以及克隆原理在开始介绍之前，我按照我的理解

2021-07-11 22:12:58 5712 3

原创语种识别公开语料库（可用于学术科研和项目研究）（自用）

1. VoxforgeVoxforge数据集下载地址：http://www.voxforge.org/zh2.Common Voice:Common Voice公开语料集下载：3.LibriVoxLibriVox语料库下载地址4.中文thchs30数据中文thchs30语料库下载：http://www.openslr.org/18/5.Slavic language recordingsSlavic language recordings 语种下载地址：6.Kaggle公开数据

2021-07-11 10:59:26 5064

原创 matlab画图操作(修改坐标轴及字体，加粗，颜色修改，适合论文画图)

matlab常用画图操作1.设置坐标轴2.设置figure大小3.matlab线条设置4.子图设置5.颜色查询6.colorbar设置7.线条透明度设置8.设置坐标轴刻度形式9.图例设置1.设置坐标轴%设置坐标轴格式title('Title','fontsize',12,'fontname','Times');xlabel('Times(s)','fontsize',12,'fontname','Times')ylabel('Value','fontsize',12,'fontname','Tim

2021-07-11 10:57:31 87563 9

原创 plt绘图操作（坐标轴修改字体，加粗，适合论文绘图使用）

# 修改标题及x，y坐标轴字体及大小plt.title("$MFCC_0$参数中值滤波", fontsize=15,fontweight='bold')plt.xlabel("时间/s", fontsize=15,fontweight='bold')plt.ylabel("数值", fontsize=15,fontweight='bold')# 修改坐标轴字体及大小plt.yticks(fontproperties='Times New Roman', size=15)plt.xticks(f

2021-07-11 10:55:49 55396 4

原创 k-means对经纬度坐标进行聚类，并可视化显示（python）

1.Code#!/usr/bin/python# -*-coding:utf-8-*-from initial import *import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom scipy.io import loadmatrandom.seed(1)np.random.seed(1)#解决中文显示问题plt.rcParams['font

2021-05-16 21:29:04 10544 16

原创使用系统聚类对数据点进行子群合并

说明：本代码应用于第14届认证杯网络大赛二阶段，用于对k-means聚类后的子群进行合并，以减少子群数量，减少企业的停车场个数。1.code#!/usr/bin/env python# -*- coding: utf-8 -*-''' @Time : 2021/5/16 0:16 @Author : kingback @Site : @File : 空间聚类.py @Software: PyCharm'''import numpy as npimport pa

2021-05-16 21:24:03 407

原创 python numpy数组转list，无法一一取出

1.问题描述在使用python 进行字符串处理时候，我们经常用到numpy包，因为其操作起来很方便，但是当我们再想要将numpy类型转为list时，就会出现一些问题：1.1 numpy数组含有省略号（解决方案）当我们想要查看详细的numpy数组内容的时候，我们使用print(filenames) #此处filenames为一个np数组命令查看的时候，输出结果则会自动省略一些数据，致使我们后续的操作很难进行：如下所示调整方案就是，在引入numpy后，需要设置numpy的行列显示限制,具体解决

2021-05-06 15:30:39 469

原创 python绘制语谱图（不掉包实现）

1.绘制语谱图为方便使用，现将同学唐维康的代码做出如下修正，封装成类，可以灵活调用@作者:kingback@文件名称:MySpec.py@IDE:PyCharm@文件创建时间:2021-04-24 22:00：08@月份:4月import librosaimport numpy as npimport matplotlib.pyplot as pltclass MySpec(object): def __init__(self,filename,wlen,inc):

2021-04-25 10:36:50 2464

原创 python 批量切割语音

python批量切割语音文件（可以灵活控制切割长度）话不多少，直接上代码：def file_name(file_dir): ''' 输入文件夹名称，并返回该文件夹下所有语音文件的完整路径(list类型) :param file_dir: :return: ''' L = [] for root, dirs, files in os.walk(file_dir): for file in files: if f

2021-04-24 18:21:47 9298 7

原创 python批量读取某文件夹下所有语音文件的总时长

1.需求在进行语音相关方面的研究的时候，我们就需要统计一下我们各个文件夹下所有语音文件的总长度，但是一个一个的进行计算难免有些麻烦，想着有没有可以使用python批量化计算每个文件夹下的所有语音时长，于是便有了下边的这个代码。2.Python批量获取指定文件夹下所有语音总时长此处将代码公式，希望可以帮助到其他人。import osimport wavedef file_name(file_dir): ''' 输入文件夹名称，并返回该文件夹下所有语音文件的完整路径(list类型)

2021-04-23 20:50:39 7413 1

原创 python批量解压zip压缩文件夹

1.python批量解压zip压缩文件夹import zipfiledef un_zip(zip_filename,des_dir): ''' 解压压缩包至des_dir指定文件夹 :param zip_filename:输入的压缩包名字，例如a.zip :param des_dir: 解压到的位置：例如为 ./文件存储/ :return: ''' with zipfile.ZipFile(zip_filename, 'r') as zzz:

2021-04-21 13:50:18 751

原创 python如何批量下载大文件（支持断点续传）

1.python下载大文件（支持断点续传）网上的很多爬取图片的程序，基本使用scrapy框架中的img管道进行加速下载，但是当要下载的文件太大的时候，scrapy框架中的文件下载管道也无能为力的时候，也确实听让人无奈，于是我写下了如下代码，其功能如下：1.读取本地 ./english.txt 文件中的下载链接2.for循环调用 download 函数分别下载各个下载链接3.保存到本地（支持断点续传）以下就是全部的代码，如果大家用得到就可以点赞支持一下。# -*- coding:utf-8 -

2021-04-21 13:40:33 8837

原创语音质量指标Python（PESQ、STOI、SegSNR、LLR、WSS、CD、LSD、CSIG、CBAK、COVL）

Speech#!/usr/bin/env python# -*- coding: utf-8 -*-'''@Time : 2020/9/13 16:53@Author : kingback@Site :@File : SEPM.py@Software: PyCharm'''import pysepmimport osimport numpy as npimport soundfile as sffrom tqdm import tqdm'''the i

2021-04-21 13:20:09 17341 30

原创 python读取sphere语音文件

在进行语音处理的时候，有时候需要处理sphere的语音文件，如果直接读取wav问价是无法读取出的，可以使用以下代码进行转换：# coding = utf-8import numpy as npimport ctypesdef read_sphere_wav(file_name): wav_file = open(file_name, 'rb') raw_header = wav_file.read(1024).decode('utf-8') raw_data = wav

2021-04-20 20:25:22 401

原创 python地图坐标系转换(bd09,gcj02,wgs84三种投影坐标系相互转化)

1.介绍1.1 GIS之坐标系坐标系是GIS的重中之重，一般来说，工作底图平面坐标系应采用国家大地坐标系CGCS2000(或相当于精度WGS84坐标系)，投影方式采用高斯-克吕格投影，高程基准采用1985国家高程基准。1.2 地理坐标系（GCS，Geographic Coordinate System）地理坐标系其实是用了一个规则的球面来代表地球表面。在球面上画一张经纬网，球面上的点就有了它的经纬度，这就是地球上每一点的坐标。因此，地球坐标系中的坐标是以经纬度来表示的。1.3 我国常见的GCS-地

2021-04-14 09:03:25 7613 2

原创 pandas操作excel表格（循环写入）

1.问题描述在数据提取的过程中需要将数据循环写入某个excel表格中，但是在循环写入过程中一直是覆盖掉上个循环的写入的数据，很是无语。2.解决措施#在循环外先定义一个空的DataFrameresult = pd.DataFrame() # 循环读取文件名称 for filename in tqdm(filenames): mfccs_1=mfcc_1(filename) #调用python_speech_features包生曾 mfccs参数 #

2021-04-07 21:28:09 7031

原创 numpy数组保存至txt时一系列问题及其解决方案

0.问题描述在做语音的特征提取的时候，需要将numpy数组内的数据写入到txt文件中，但是在写入后却是这个狗样子，自动给我缺省了一些数据，且还存在一些其他问题，写入txt的原始代码如下所示：'''...此处省略一些无用代码''' mfccs_labels=[] # 循环读取文件名称 for filename in filenames: mfccs_1=mfcc_1(filename) #调用python_speech_features包生曾 mfccs参数 #将mfcc

2021-04-07 16:44:11 1381 1

原创 python提取mfcc参数（python_speech_features和librosa两个包速度比较）

1.比较代码import librosaimport osimport timeimport numpy as npimport scipy.io.wavfile as wavimport python_speech_featuresfrom python_speech_features import mfcc#读取某文件夹下的所有.wav文件，并返回文件全称def file_name(file_dir): L = [] for root, dirs, files in

2021-04-07 13:28:09 9755 14

原创 matlab对语音进行基音检测（基于matlab voicebox 工具包）

0.背景研究基音频率, 简称基频, 它决定了语音的音高. 在语音信号处理中, 基频信息可应用于语音识别、语音压缩编码以及语音分离等领域。2014年Gonzalez 提出了非线性地基因检测语谱图特征PEFAC, 截至目前该特征已被证明具有较好的鲁棒性.且被广泛的应作基音检测和语音识别特征，近些年一些学者将PEFAC语谱图输入到CNN,DNN等深度神经网络中进行各项语音实验。短时语音信号可以表示为一系列谐波的加权和, 其中第1 个谐波即为基频, 记做F0, 其他谐波均为F0 的整数倍.在上边的语谱图中,

2021-04-01 20:01:03 2461

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

基于适量量化(VQ)的说话人识别.zip

第14届认证杯数学建模二阶段C题处理数据，主要用于K-means聚类

LibriVox语料库下载链接.zip

GFCC和MFCC特征提取（python代码）

ibm-watson-4.2.1.tar.gz

六级单词中文版----

六级单词发音mp3文件

六级单词英文只含英文单词

四六级词库sql文件版可以直接导入mysql数据库

北邮通信考研2019年801真题及答案

昆明理工大学信息学院各研究生导师信息

六级单词.txt可直接存入数据库

四级.txt可以直接存入数据库

SpeechRecognition-3.8.1-py2.py3-none-any.whl

北京邮电大学信息与通信工程学院导师联系方式以及历年招收情况

北邮模拟.zip

空空如也