![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
项目相关
文章平均质量分 72
项目相关的理论以及代码参考
Robin_Pi
所有觉得难得东西,只是因为没有真正理解最基础的概念
展开
-
一文了解 Python 图像处理
文章目录1. 图像读取1.1 二进制读取1.2 数组读取2. 图像处理2.1 图像缩放2.2 图像裁剪2.3 像素级操作3. 完整代码1. 图像读取网上各种图像读取方法,我这里只根据目的划分为二进制和数组读取,两种方式——前者用于网络传输,后者用于广义上的图像处理。1.1 二进制读取使用ope() 以及 read()即可,其中使用'rb'指定以二进制的方式读取,用read而不是readline或者readlines,是读取全部的数据。with open(data_path, 'rb') as f:原创 2021-08-28 07:13:07 · 435 阅读 · 0 评论 -
kaldi 记录:移动 kaldi根目录之后的报错——libkaldi-util.so: cannot open shared object file: No such file or directo
kaldi 记录:移动 kaldi根目录之后的报错1. 问题:移动kaldi根目录导致运行报错2. 解决:将缺少的库名移动到`/usr/lib/`1. 问题:移动kaldi根目录导致运行报错由于各种原因,移动了kaldi 的根目录(实际上是删除了原kaldi,使用的备份版本),在使用 extract_xvectors 做测试时候发现出问题了:run.pl: 10 / 10 failed, log is in exp/make_mfcc_test/make_mfcc_data_test.*.log然原创 2021-01-25 11:20:21 · 753 阅读 · 0 评论 -
报错:OSError: [Errno -9998] Invalid number of channels(成功解决、采坑经历)
目录1. 问题2. 解决2.1 更改 代码中的 channels 数目2.2 尝试重装 pyaudio1. 问题使用 Mac、 jupyter notebook、pyaudio,想要实现音频录制和播放,出现报错:---------------------------------------------------------------------------OSError Traceback (most recent call l原创 2020-11-27 15:06:34 · 6796 阅读 · 6 评论 -
语音质量评价指标:PESQ(已经过时)
PESQ概述PESQ 流程问题概述PESQ(Perceptual evaluation of speech quality)(语音质量的感知评估)是一种客观的、全参考的语音质量评估方法,其在国际电信联盟的标注化代号为ITU-T P.862。PESQ算法需要带噪的衰减信号和一个原始的参考信号,能够对客观语音质量评估提供一个主观MOS的预测值,而且可以映射到MOS刻度范围,PESQ得分范围在 -0.5–4.5 之间。得分越高表示语音质量越好。其实现代码如下(在Python中也可直接调用相应的pesq模块原创 2020-11-25 13:35:31 · 19223 阅读 · 7 评论 -
开发:KTV评分系统实现总结
文章目录第一阶段:预调研第二阶段:封装模块第三阶段:软件框架第四阶段:修正软件第五阶段:优化算法偶然看到一篇博文,该篇对KTV评分系统demo的实现进行了总结,个人觉有必要记录一下,以供学习“开发”的流程。大致分为这样几个步骤:第一阶段:预调研预调研,分析国内外该产品的现状。算法调研,多看看论文,分析总结吸收其中的优秀做法。matlab仿真各个模块算法效果第二阶段:封装模块将功能型模块算法改成C代码,封装成dll第三阶段:软件框架完成软件框架的设计,梳理各个模块之间的逻辑关系,将功能性模原创 2020-11-19 09:47:28 · 2420 阅读 · 1 评论 -
【sphinx】中文声学模型训练
点击原创 2020-11-17 18:39:11 · 542 阅读 · 0 评论 -
端到端的声纹识别
记录一些可参考项目:使用tensorflow和densenet神经网路实现语谱图声纹识别,即说话人识别【工程】深度说话人的应用及声纹识别系统的制作 (附完整代码与数据集)参考自:https://github.com/Walleclipse/Deep_Speaker-speaker_recognition_system?tdsourcetag=s_pctim_aiomsg基于Keras: jcfszxc /Project ...原创 2020-11-16 21:02:55 · 661 阅读 · 0 评论 -
Kaldi 报错:** split_data.sh: warning, #lines is (utt2spk,feats.scp) is (502,500); you can ** use uti
问题:使用Kaldi提取音频特征时候发生报错出现报错:** split_data.sh: warning, #lines is (utt2spk,feats.scp) is (502,500); you can ** use utils/fix_data_dir.sh data_test to fix this.排除和解决首先就是怀疑文件命名有问题果然,在本地仔细排查,发现了两个命名有些“不合群”的音频问题;可是修改之后依旧报错,再仔细检查还是没有其他发现;后来发现在Linux服务器上查看文件原创 2020-11-13 16:11:47 · 236 阅读 · 0 评论 -
声纹识别:x-vector 的特征提取原理
文章目录框架细节(待完成)x-vector 基于DNN编码(详细可查看论文 Deep Neural Network Embeddings for Text-Independent Speaker Verification )框架##i-vector、d-vector、x-vector(1)i-vectori-vector 是一个不管输入多长的语音,都可以吐出一个400维的向量的模型。i-vector 并不是深度学习的模型,但是可以说是语音界最后一个被深度学习模型打败的模型,在16年左右,其效果原创 2020-11-09 17:36:55 · 10045 阅读 · 3 评论 -
Kaldi 脚本:split_data.sh
kaldi脚本注释:utils/split_data.sh原创 2020-11-04 10:02:28 · 370 阅读 · 0 评论 -
Kaldi说话人识别:基于x-vector 的plda自适应
@toc理论what and why自适应的作用是,补偿实际数据与已经训练的三音素模型中声学条件不匹配的问题,包括说话人特性(说话方式、口音等)及环境特性(如录音设备、房间混响等)。how代码...原创 2020-11-02 13:42:25 · 2360 阅读 · 2 评论 -
声纹识别技术小结(1):声纹建模技术
开集声纹辨认 :M个说话人的声纹识别问题——(M+1)元分类问题(M个说话人+一个冒名顶替者imposter)原创 2020-10-26 15:39:34 · 3918 阅读 · 2 评论 -
“声音”背后的原理(2):采样、量化和编码
音频处理的大致流程:音频——(采集设备)——模拟信号(连续)——(模数转换器ADC)——数字信号(离散)——编码——储存于计算机模拟信号数字化采样采样的原理很简单,就是按照固定的频率对模拟信号的振幅进行取值。这个频率,便是采样率,单位为赫兹,表示每秒钟取得的采样的个数。对于一个周期信号,至少需要采样两次:波峰和波谷各采样一次。在语音信号中,绝大部分的信息在10000Hz以下,所以通常20000Hz的采样率足以保留这些信息。但是,采样率越高,也往往意味着越大的计算量、储存量以及网络传输数据量。目前原创 2020-10-23 10:02:07 · 26468 阅读 · 0 评论 -
波的简单知识(声波为例)
最近在研究声纹相关的东西,不可避免地涉及音频信号处理相关的东西,发现有些基础的知识已经忘得差不多,借几个问题小结一下。(未加限定则波为横波,波速为光速)核心波长和频率的关系?波长:在横波中波长通常是指相邻两个波峰或波谷之间的距离。频率:单位时间内完成振动的次数,是描述振动物体往复运动频繁程度的量(之前一直没留意”震动“二字,现在才知道声音的产生,或者说波本身本质上就是一种震动)那到底如何理解波的频率?不如通过频率、波长和波速之间的关系来理解:波长与频率成反比。小结v = f*λ(其中,波速原创 2020-10-22 10:28:32 · 3227 阅读 · 0 评论 -
音频特征(2):时域图、频谱图、语谱图(时频谱图)
文章目录 时域和频域 1. 概述 2.(时域)波形和频域:用几张对比图来区分 2.1 时域和频域 2.2 区分:时频谱图(语谱图)原创 2020-10-21 17:37:07 · 80277 阅读 · 17 评论 -
“声音”背后的原理(1):波(横波、纵波、声波)、声音的采集、声音的储存
文章目录声音概述声音的产生声音的储存声音的识别声音概述声音是振动产生的声波,通过介质(气体、固体、液体)传播并能被人或动物听觉器官所感知的波动现象。声音作为波的一种,频率和振幅就成了描述波的重要属性,频率的大小与我们通常所说的音高对应,而振幅影响声音的大小。声音总可以被分解为不同频率不同强度正弦波的叠加。这种变换(或分解)的过程,称为傅立叶变换。声音的产生以扬声器的发声为示例,下图为动圈式扬声器的结构示意图。将线圈套在永久(固定)磁铁上,并通入电流,则线圈变为电磁铁;改变电流的方向和大小,则原创 2020-10-21 11:00:45 · 22887 阅读 · 11 评论 -
音频质量的评价方法:简单梳理
文章目录0. 概论语音质量评估一些概念1. 主观评价1.1 平均意见得分(MOS)失真等级评分(CMOS)ABX Test2. 客观评价PESQ单端方法P.563E-ModelNISQA0. 概论语音质量评估语音质量评估,就是通过人类或自动化的方法评价语音质量。在实践中,有很多主观和客观的方法评价语音质量。主观方法就是通过人类对语音进行打分,比如MOS、CMOS和ABX Test。客观方法即是通过算法评测语音质量,在实时语音通话领域,这一问题研究较多,出现了诸如如PESQ和P.563这样的有参考和无参原创 2020-10-19 13:35:52 · 18927 阅读 · 0 评论 -
ModuleNotFoundError: No module named ‘umap‘
问题from umap import UMAP 报错:ModuleNotFoundError: No module named 'umap'解决:重装pip uninstall umap # 如果已安装umap,删除umap包pip install umap-learn参考:ImportError: Cannot Import Name ‘UMAP’ from umap原创 2020-10-16 14:26:11 · 4483 阅读 · 0 评论 -
语音活性检测器 webrtcvad
目录概述安装使用脚本1. 测试静音片段2. 清理静音片段概述WebRTC是一个免费、开放的框架/项目。使web浏览器通过简单的JavaScript api接口实现实时通信功能。WebRTC:An open framework for the web that enables Real-Time Communications (RTC) capabilities in the browser.端点检测是语音信号处理中的重要一环,是各种语音任务的基础。WebRTC是谷歌开发的VAD,是当前最有效原创 2020-10-14 16:54:46 · 1360 阅读 · 0 评论 -
使用Python编辑音频:成功安装 webrtcvad
若是直接使用pip install webrtcvad,则很容易报错:Collecting webrtcvad Downloading https://files.pythonhosted.org/packages/89/34/e2de2d97f3288512b9ea56f92e7452f8207eb5a0096500badf9dfd48f5e6/webrtcvad-2.0.10.tar.gz (66kB) |███████████████████▉ | 40kB 10原创 2020-10-12 13:59:05 · 3895 阅读 · 3 评论 -
Kaldi 声纹识别·总章
Kaldi 声纹识别·总章理论代码主要记录自己的学习笔记。理论代码Kaldi 实战学习(1)说话人识别小例子(egs/aishell/v1)原创 2020-09-29 09:15:04 · 568 阅读 · 0 评论 -
Kaldi 实战学习(1)说话人识别小例子(egs/aishell/v1)
进入:~/kaldi/egs/aishell/v1# 地址变量(引号可省略,但是=之间不可有空格!)data=/export/a05/xna/datadata_url=www.openslr.org/resources/33# 载入引用文件(使用.,类似import). ./cmd.sh. ./path.sh# 设置bash出错则退出set -e # exit on error# 下载和解压数据(应该是两者选一)local/download_and_untar.sh $data $原创 2020-09-28 15:30:11 · 1082 阅读 · 1 评论 -
Kladi 报错:utt2spk is not in sorted order when sorted first on speaker-id
问题提取数据的xvector特征时报错:Preparing data_test ......cj_script/data_test_prep.sh: data preparation succeededutils/fix_data_dir.sh: file data_test/spk2utt is not in sorted order or not unique, sorting it- data_test/utt2spk differ: char 1, line 1utt2spk is no原创 2020-09-22 09:11:30 · 1476 阅读 · 0 评论 -
声纹识别概述(2)声纹识别原理和过程
结合:添加链接描述原创 2020-09-07 17:09:22 · 3132 阅读 · 0 评论 -
Python 文件之 os.walk()
1. os.walk()1.1 说明文件目录如下:目的:想要保留子文件中所有的wav后缀的音频文件。思路:删除所有其它非wav后缀的文件。1.2 先看一看os.walk的用法data_path = '/Users/robin/Desktop/aidatatang_200zh'lst = ['metadata', 'trn', 'txt'] # 需要删除的后缀文件for root, dirs, files in os.walk(data_path): print(root)原创 2020-09-01 16:27:24 · 812 阅读 · 0 评论 -
语音库的分析与评价
说话人识别(声纹识别)语音库的分析与评价,一般依据以下四个因素:1、说话人的数量和差异性2、说话人录音的次数及录音间隔3、语料的类型(固定的短语、带提示信息的数字、朗读句子、对话语音)4、录音设备,录制环境,传输信道影响因素选项人数录音方式多次重复录音、转录语音、录音回放语音采集设备宽带(麦克风)、窄带(电话、手机)录音环境安静、嘈杂录音内容数字串(普通话、英语、方言)、固定短文(普通话:60个音素和韵律分布平稳)、自由发言口音分布不同原创 2020-08-25 18:11:11 · 534 阅读 · 0 评论 -
声纹识别:如何获取最佳效果的阈值(通过计算ERR)?
摆在眼前的有几个问题:1、声纹识别与人脸识别的阈值获取方式一致么?(ROC曲线 or ERR曲线?)2、如何绘制 ROC 曲线?3、如何绘制 ERR 曲线?原创 2020-08-24 09:56:03 · 2141 阅读 · 0 评论 -
声纹识别概述(3)声纹识别系统
参考:声纹识别是个什么原理?原创 2020-08-20 18:20:04 · 5949 阅读 · 0 评论 -
声纹识别·总章
声纹识别1. 理论声纹识别基础声纹识别算法2. 资源声纹识别数据声纹识实践参考声纹识别关心的“谁在说”,用于解决生物身份确认和识别;而语音识别关心的“说了什么”,用于解决对说话内容的识别。1. 理论声纹识别基础声纹识别概述声纹识别流程声纹识别算法2. 资源声纹识别数据声纹识实践参考语音识别从入门到放弃参考:语音识别(八)——声纹识别, 地理...原创 2020-08-20 15:17:14 · 1587 阅读 · 0 评论 -
kaldi 声纹识别·资源汇总
kaldi 基础kaldi 使用样例表kaldi 实战语音识别从入门到放弃Kaldi 中的声纹识别原创 2020-08-20 15:13:17 · 850 阅读 · 0 评论 -
kaldi 使用样例表
参考:Kaldi 使用,egs下通用样例及功能小结(很硬,慎入)转载 2020-08-20 15:08:59 · 270 阅读 · 2 评论 -
声纹识别概述(1)初识
声纹识别初识声纹声纹概念声纹识别的原理声纹识别的技术指标影响声纹识别水平的因素初识声纹声纹概念声纹(Voiceprint)是用电声学仪器现实的携带言语信息的声波频谱, 是由波长频率以及强度等百余种特征维度组成的生物特征,具有稳定性、可测量性、唯一性等特点。每个人的语音声学特征既有相对稳定性,又有变异性,不是一成不变的。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。声纹识别的原理人声差异的主要方面:共鸣方式特征:咽腔共鸣、鼻腔共鸣和口腔共鸣嗓音纯度特征:不同人的嗓音,纯度一般原创 2020-08-19 14:08:12 · 10389 阅读 · 3 评论 -
Kaggle比赛——疫情期间网民情绪(多模态情感分析)
目录对数据的探索(可视化分析)(反思自己的课题,有没有做这方面的考虑:每种标签是否平衡?)原创 2020-03-15 22:25:18 · 3423 阅读 · 0 评论 -
深度学习项目——表情识别(3)数据初探与 Pipeline
思路1. 分析1.1 题目解析1.2 数据探索数据存储方式数据探索工具2. Pipeline 制定2.1 工具选择2.2 Pipeline(标准流程)2.2.1 数据预处理2.2.2 模型构建1. 分析1.1 题目解析(1) kaggle上比赛的题目解析:五种表情:惊讶、愤怒、高兴、悲伤和中性(已经剔除数量较少的厌恶和恐惧)评估指标:ACC(准确率) 和 AUC(2)表情识别很多难点,...原创 2020-03-05 17:50:04 · 622 阅读 · 0 评论 -
深度学习项目——表情识别(2)卷积基础和常用卷积模型
目录1. 图像基础1.1 图像如何存储在计算机中1.2 传统的图像处理2. 卷积的基本构件2.1 卷积层2.1.1 全连接神经网络 处理图像的问题2.2 卷积的基本构件卷积层的特性2.3 卷积层的几个重要概念2.2 池化层2.3 CNN架构设计原则3. 卷积的经典结构1. 图像基础1.1 图像如何存储在计算机中灰度图:矩阵0:黑色1:白色0-255:灰色彩色图:三个矩阵的叠...原创 2020-03-04 21:33:41 · 1617 阅读 · 0 评论 -
深度学习项目——表情识别(1)CV 介绍 及 colab 介绍
目录1. 框架和背景1.1 计算机视觉简介1.2 两大任务三大基本任务进阶任务2. OpenCV 和 TensorFlow:传统方法和深度学习3. 表情识别4. colab4.1 使用GPU:colab4.2 上传下载数据:Google Drive1. 框架和背景1.1 计算机视觉简介让计算机理解图片。1.2 两大任务三大基本任务图像分类(左上)、物体检测(右上)和分割问题(下二)。...原创 2020-03-04 16:59:08 · 522 阅读 · 0 评论 -
机器学习-参考dformoso思维导图的学习(0)
1.环境搭1.1安装Docker1.2安装nvidia-docker(已放弃,不适用Mac和windows)https://github.com/NVIDIA/nvidia-docker#nvidia-container-runtime-for-docker原创 2019-12-27 20:46:45 · 237 阅读 · 0 评论