- 博客(107)
- 资源 (20)
- 收藏
- 关注
原创 numpy报错can‘t convert np.ndarray of type numpy.object_.解决方案
numpy报错can't convert np.ndarray of type numpy.object_.解决方案
2023-01-10 09:56:18 4093 1
原创 python批量添加不同噪声(可调节不同信噪比)
在进行一些语音任务时,可能需要对我们的语音信号进行加噪,难免会用到批量对语音信号进行加噪,下面我实现了使用python批量对语音文件进行加噪,希望能对大家有所帮助.在这里需要修改main函数中的那几个路径和信噪比就可以批量添加啦~,祝大家使用愉快。
2022-10-14 09:38:15 2893 11
原创 pytorch使用Dataloader加载自己的数据集train_X和train_Y
pytorch使用Dataloader加载自己的数据集train_X和train_Y。
2022-07-28 15:34:19 3282 1
原创 多种深度模型实现手写字母MNIST的识别(CNN,RNN,DNN,逻辑回归,CRNN,LSTM/Bi-LSTM,GRU/Bi-GRU)
多种深度模型实现手写字母MNIST的识别(CNN,RNN,DNN,逻辑回归,CRNN,LSTM/Bi-LSTM,GRU/Bi-GRU)
2022-07-28 14:39:06 1073
原创 python 批量去掉语音中的静音段
python批量去掉语音中的静音段,使用mfcc0参量进行端点检测,为平滑特征,对其进行中值滤波,最后可以灵活去除语音中的静音段
2021-12-02 15:27:33 8536 12
原创 提取IEMOCAP情感语料库标签
IEMOCAP语料库介绍该语料库包含的情感包括 anger, happiness, excitement, sadness, frustration, fear, surprise, other and neutral state分别用ang、hap、exc、sad、fru、fea、sur、oth、neu来表示如何查看标签数据进入文件夹 IEMOCAP\Session1\dialog\EmoEvaluation ,可以看到文件:这里以打开Ses01F_impro01.txt文件为例:该 t
2021-11-27 22:10:31 10211 38
原创 深度学习过拟合及如何防止过拟合
0.过拟合深度学习模型的过拟合通常是指针对设计好的深度学习网络,在使用训练数据集训练时,在训练数据集上可以获得很高的识别精度(针对分类问题),或者很低的均方根误差(很对回归问题),但是把训练好的模型应用于测试集进行预测时,预测效果往往不是很理想。我们称这种现象为过拟合。1.如何防止过拟合1.1 增加数据量更多的训练样本通常会使得模型更加稳定,所以训练样本的增加不仅可以得到更有效的训练结果,也能在一定程度上防止模型过拟合,增强网络的泛化能力。,例如在图像的分类任务中,物体在图像中的位置、姿态、尺度、图
2021-11-19 16:34:49 4795
原创 html网页调用cmd命令行并执行命令(亲测可用)
html调用cmd命令行并执行命令(亲测可用) <html xmlns="http://www.w3.org/1999/xhtml"><head><meta http-equiv="Content-Type" content="text/html; charset=gb2312" /><title>测试php+js调用cmd命令行</title></head> <body> <a href="#"
2021-09-27 15:23:20 16798 9
原创 windows 使用cmd命令调用pesq.exe测量噪声语音及增强语音MOS评分
1.第一步 下载windows下的pesq.exe这个文件在csdn已经被人上传了,请戳我,pesq.exe文件下载路径~~2.单个测量MOS评分命令cmd进入pesq.exe所在文件夹下,然后执行以下命令,当然文件路径需要更改为自己的文件路径。pesq +16000 1.wav ./data/factory1_15dB.wav# 此处+16000表示的是语音采样率,# 1.wav表示纯净的语音文件,# ./data/factory1_15dB.wav 表示噪声状态下或增强后的语音文件执行
2021-07-17 15:51:21 1966 4
原创 基于VQ矢量量化的说话人识别(应用于门禁识别)
1.功能演示1.添加说话人2.删除说话人3.识别说话人,如果是系统内人员,显示开锁,如果是系统外人员,则不予开锁算法准确率96%以上。录制不全,只能显示30s ~_~!matlab代码部分核心代码function varargout = User_Desktop(varargin)% USER_DESKTOP MATLAB code for User_Desktop.fig% USER_DESKTOP, by itself, creates a new USER_DESK
2021-07-12 10:30:49 2485 10
原创 从 语音合成 到 语音克隆,你不了解的还有多少?
从 语音合成 到 语音克隆,你不了解的还有多少?1.初识Real_Time_Voice_Cloning近日学习之余看到一篇语音合成的github开源项目 请戳这里,github原文地址 ,论文地址 论文地址请戳这里 ,该项目是2019年开源的,平台使用tensorflow,2021年2月又将环境移植到pytorch环境。但我研究了这么长的语音,直到现在我才了解到这个工具,也是比较惋惜。2. 基本思路在这里我也不介绍过多了,只大概讲一下其算法流程以及 克隆原理在开始介绍之前,我按照我的理解
2021-07-11 22:12:58 5712 3
原创 语种识别公开语料库(可用于学术科研和项目研究)(自用)
1. VoxforgeVoxforge数据集下载地址:http://www.voxforge.org/zh2.Common Voice:Common Voice公开语料集下载:3.LibriVoxLibriVox语料库下载地址4.中文thchs30数据中文thchs30语料库下载:http://www.openslr.org/18/5.Slavic language recordingsSlavic language recordings 语种下载地址:6.Kaggle公开数据
2021-07-11 10:59:26 5064
原创 matlab画图操作(修改坐标轴及字体,加粗,颜色修改,适合论文画图)
matlab常用画图操作1.设置坐标轴2.设置figure大小3.matlab线条设置4.子图设置5.颜色查询6.colorbar设置7.线条透明度设置8.设置坐标轴刻度形式9.图例设置1.设置坐标轴%设置坐标轴格式title('Title','fontsize',12,'fontname','Times');xlabel('Times(s)','fontsize',12,'fontname','Times')ylabel('Value','fontsize',12,'fontname','Tim
2021-07-11 10:57:31 87563 9
原创 plt绘图操作(坐标轴修改字体,加粗,适合论文绘图使用)
# 修改标题及x,y坐标轴字体及大小plt.title("$MFCC_0$参数中值滤波", fontsize=15,fontweight='bold')plt.xlabel("时间/s", fontsize=15,fontweight='bold')plt.ylabel("数值", fontsize=15,fontweight='bold')# 修改坐标轴字体及大小plt.yticks(fontproperties='Times New Roman', size=15)plt.xticks(f
2021-07-11 10:55:49 55396 4
原创 k-means对经纬度坐标进行聚类,并可视化显示(python)
1.Code#!/usr/bin/python# -*-coding:utf-8-*-from initial import *import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom scipy.io import loadmatrandom.seed(1)np.random.seed(1)#解决中文显示问题plt.rcParams['font
2021-05-16 21:29:04 10544 16
原创 使用系统聚类对数据点进行子群合并
说明:本代码应用于第14届认证杯网络大赛二阶段,用于对k-means聚类后的子群进行合并,以减少子群数量,减少企业的停车场个数。1.code#!/usr/bin/env python# -*- coding: utf-8 -*-''' @Time : 2021/5/16 0:16 @Author : kingback @Site : @File : 空间聚类.py @Software: PyCharm'''import numpy as npimport pa
2021-05-16 21:24:03 407
原创 python numpy数组转list,无法一一取出
1.问题描述在使用python 进行字符串处理时候,我们经常用到numpy包,因为其操作起来很方便,但是当我们再想要将numpy类型转为list时,就会出现一些问题:1.1 numpy数组含有省略号(解决方案)当我们想要查看详细的numpy数组内容的时候,我们使用print(filenames) #此处filenames为一个np数组命令查看的时候,输出结果则会自动省略一些数据,致使我们后续的操作很难进行:如下所示调整方案就是,在引入numpy后,需要设置numpy的行列显示限制,具体解决
2021-05-06 15:30:39 469
原创 python绘制语谱图(不掉包实现)
1.绘制语谱图为方便使用,现将同学唐维康的代码做出如下修正,封装成类,可以灵活调用@作者:kingback@文件名称:MySpec.py@IDE:PyCharm@文件创建时间:2021-04-24 22:00:08@月份:4月import librosaimport numpy as npimport matplotlib.pyplot as pltclass MySpec(object): def __init__(self,filename,wlen,inc):
2021-04-25 10:36:50 2464
原创 python 批量切割语音
python批量切割语音文件(可以灵活控制切割长度)话不多少,直接上代码:def file_name(file_dir): ''' 输入文件夹名称,并返回该文件夹下所有语音文件的完整路径(list类型) :param file_dir: :return: ''' L = [] for root, dirs, files in os.walk(file_dir): for file in files: if f
2021-04-24 18:21:47 9298 7
原创 python批量读取某文件夹下所有语音文件的总时长
1.需求在进行语音相关方面的研究的时候,我们就需要统计一下我们各个文件夹下所有语音文件的总长度,但是一个一个的进行计算难免有些麻烦,想着有没有可以使用python批量化计算每个文件夹下的所有语音时长,于是便有了下边的这个代码。2.Python批量获取指定文件夹下所有语音总时长此处将代码公式,希望可以帮助到其他人。import osimport wavedef file_name(file_dir): ''' 输入文件夹名称,并返回该文件夹下所有语音文件的完整路径(list类型)
2021-04-23 20:50:39 7413 1
原创 python批量解压zip压缩文件夹
1.python批量解压zip压缩文件夹import zipfiledef un_zip(zip_filename,des_dir): ''' 解压压缩包至des_dir指定文件夹 :param zip_filename:输入的压缩包名字,例如a.zip :param des_dir: 解压到的位置:例如为 ./文件存储/ :return: ''' with zipfile.ZipFile(zip_filename, 'r') as zzz:
2021-04-21 13:50:18 751
原创 python如何批量下载大文件(支持断点续传)
1.python下载大文件(支持断点续传)网上的很多爬取图片的程序,基本使用scrapy框架中的img管道进行加速下载,但是当要下载的文件太大的时候,scrapy框架中的文件下载管道也无能为力的时候,也确实听让人无奈,于是我写下了如下代码,其功能如下:1.读取本地 ./english.txt 文件中的下载链接2.for循环调用 download 函数分别下载各个下载链接3.保存到本地(支持断点续传)以下就是全部的代码,如果大家用得到就可以点赞支持一下。# -*- coding:utf-8 -
2021-04-21 13:40:33 8837
原创 语音质量指标Python(PESQ、STOI、SegSNR、LLR、WSS、CD、LSD、CSIG、CBAK、COVL)
Speech#!/usr/bin/env python# -*- coding: utf-8 -*-'''@Time : 2020/9/13 16:53@Author : kingback@Site :@File : SEPM.py@Software: PyCharm'''import pysepmimport osimport numpy as npimport soundfile as sffrom tqdm import tqdm'''the i
2021-04-21 13:20:09 17341 30
原创 python读取sphere语音文件
在进行语音处理的时候,有时候需要处理sphere的语音文件,如果直接读取wav问价是无法读取出的,可以使用以下代码进行转换:# coding = utf-8import numpy as npimport ctypesdef read_sphere_wav(file_name): wav_file = open(file_name, 'rb') raw_header = wav_file.read(1024).decode('utf-8') raw_data = wav
2021-04-20 20:25:22 401
原创 python地图坐标系转换(bd09,gcj02,wgs84三种投影坐标系相互转化)
1.介绍1.1 GIS之坐标系坐标系是GIS的重中之重,一般来说,工作底图平面坐标系应采用国家大地坐标系CGCS2000(或相当于精度WGS84坐标系),投影方式采用高斯-克吕格投影,高程基准采用1985国家高程基准。1.2 地理坐标系(GCS,Geographic Coordinate System)地理坐标系其实是用了一个规则的球面来代表地球表面。在球面上画一张经纬网,球面上的点就有了它的经纬度,这就是地球上每一点的坐标。因此,地球坐标系中的坐标是以经纬度来表示的。1.3 我国常见的GCS-地
2021-04-14 09:03:25 7613 2
原创 pandas操作excel表格(循环写入)
1.问题描述在数据提取的过程中需要将数据循环写入某个excel表格中,但是在循环写入过程中一直是覆盖掉上个循环的写入的数据,很是无语。2.解决措施#在循环外先定义一个空的DataFrameresult = pd.DataFrame() # 循环读取文件名称 for filename in tqdm(filenames): mfccs_1=mfcc_1(filename) #调用python_speech_features包生曾 mfccs参数 #
2021-04-07 21:28:09 7031
原创 numpy数组保存至txt时一系列问题及其解决方案
0.问题描述在做语音的特征提取的时候,需要将numpy数组内的数据写入到txt文件中,但是在写入后却是这个狗样子,自动给我缺省了一些数据,且还存在一些其他问题,写入txt的原始代码如下所示:'''...此处省略一些无用代码''' mfccs_labels=[] # 循环读取文件名称 for filename in filenames: mfccs_1=mfcc_1(filename) #调用python_speech_features包生曾 mfccs参数 #将mfcc
2021-04-07 16:44:11 1381 1
原创 python提取mfcc参数(python_speech_features和librosa两个包速度比较)
1.比较代码import librosaimport osimport timeimport numpy as npimport scipy.io.wavfile as wavimport python_speech_featuresfrom python_speech_features import mfcc#读取某文件夹下的所有.wav文件,并返回文件全称def file_name(file_dir): L = [] for root, dirs, files in
2021-04-07 13:28:09 9755 14
原创 matlab对语音进行基音检测(基于matlab voicebox 工具包)
0.背景研究基音频率, 简称基频, 它决定了语音的音高. 在语音信号处理中, 基频信息可应用于语音识别、语音压缩编码以及语音分离等领域。2014年Gonzalez 提出了非线性地基因检测语谱图特征PEFAC, 截至目前该特征已被证明具有较好的鲁棒性.且被广泛的应作基音检测和语音识别特征,近些年一些学者将PEFAC语谱图输入到CNN,DNN等深度神经网络中进行各项语音实验。短时语音信号可以表示为一系列谐波的加权和, 其中第1 个谐波即为基频, 记做F0, 其他谐波均为F0 的整数倍.在上边的语谱图中,
2021-04-01 20:01:03 2461
原创 python中math.log()函数和numpy.log()函数区别
python中 math.log 函数和numpy.log 函数区别1.调用math.log 函数进行对数运算2.调用numpy.log函数进行对数运算3.总结区别1.调用math.log 函数进行对数运算因为我需要对一个数组的每个元素都取对数,一开始,我使用的是math.log(),结果程序给我报错:#执行的python程序 L_p=math.log10(data/P_ref1) #程序返回的错误:TypeError: only size-1 arrays can be converted
2020-12-04 16:50:42 4147
原创 ffmpeg 去除音频文件中的静音部分
ffmpeg 去除音频文件中的静音部分0. 前提1. 使用ffmpeg去除音频静音1.1 python调用cmd命令1.2 直接使用cmd命令2.ffmpeg 官方使用手册0. 前提电脑已经安装ffmpeg且已将其配置为环境变量1. 使用ffmpeg去除音频静音1.1 python调用cmd命令import oscmd_commond="ffmpeg -i "+filename+" -af silenceremove=stop_periods=-1:stop_duration=0.2
2020-11-27 21:39:57 12663 2
基于适量量化(VQ)的说话人识别.zip
2021-12-02
第14届认证杯数学建模二阶段C题处理数据,主要用于K-means聚类
2021-09-10
LibriVox语料库下载链接.zip
2021-04-25
ibm-watson-4.2.1.tar.gz
2020-06-14
四六级词库sql文件版可以直接导入mysql数据库
2020-02-25
SpeechRecognition-3.8.1-py2.py3-none-any.whl
2020-02-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人