自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 python 爬虫

https://blog.csdn.net/qq_39591494/article/details/85538162 https://www.cnblogs.com/puresoul/p/7520246.html

2020-01-19 09:26:22 53 0

原创 JPEG编码

https://blog.csdn.net/newchenxf/article/details/51719597

2019-12-03 14:59:34 87 0

原创 caffe im2col 详解

https://blog.csdn.net/mrhiuser/article/details/52672824 https://blog.csdn.net/ChuiGeDaQiQiu/article/details/81265471 https://blog.csdn.net/jiongnim...

2019-11-12 09:33:05 57 0

原创 Resnet 网络详解与keras实现

#!/usr/bin/python3 from keras.models import Model print("Hello, World!") import numpy as np np.random.seed(1337) # for reproducibility f...

2019-04-14 19:23:55 653 0

转载 深入理解卷积层,全连接层的作用意义

https://blog.csdn.net/m0_37407756/article/details/80904580

2019-03-12 16:03:36 754 0

转载 kaldi解码及特征提取详解

目录 1. 注意事项 2. 流程图: 3. 具体流程指令: 1. 注意事项 首先要训练好模型,用到3个文件,分别是: final.mdl(训练模型得到的模型文件) final.mat(用来特征转换) HCLG.fst(fst文件) 此外要提供待解码音频文件或路径.scp文...

2018-12-19 09:11:49 829 0

原创 HTK解码代码分析(二)

HTK解码总体流程: 首先在HVite.C的main函数中调用相应库的函数。 HVite_main() { 解析HVite命令行; Initialise(); net = ExpandWordNet(&netHeap,wdNet,&vocab,&a...

2018-12-17 09:18:14 411 0

原创 HTK解码代码分析(一)

每个HMM的每个状态status都有一个TokenSet。这从结构体 _NetInst中可以看出。它有一个链表数据项TokenSet *state,就是保存每个状态status的TokenSet。每个TokenSet.like只保存对应状态的当前时刻观察值的最佳概率(所有状态到当前状态转移概率的最...

2018-12-17 09:17:26 324 0

原创 HTK特征提取(MFCC)代码分析(一)

HTK特征提取工具HCopy主要调用了HParm.c和HSigP.c这两个C文件里面的函数来实现了原始波形信号到MFCC的转换。特征提取的数据全部放在内存中处理,函数调用过程如下: main()->OpenSpeechFile->OpenParmFile-&...

2018-12-17 08:59:51 676 0

转载 WFST加权有限状态机

WFST在语音识别中的应用,要从Mohri的《Weighted Finite-State Transducers in Speech Recognition》这篇论文开始说起。首先看下面简单的WFST图,它是一个有向图,状态转移弧上有输入符号、输出符号以及对应的权重值。下图中的输入符号和输出符号相...

2018-12-13 15:27:08 951 0

转载 语音识别算法原理文档整理(十)

Kaldi单音素脚本 从脚本run.sh来看,单音素训练 #monophone steps/train_mono.sh –boost-silence 1.25 –nj $n –cmd “$train_cmd”  data/mfcc/train data/lang exp/mono || exi...

2018-12-09 15:36:55 278 0

原创 kaldi笔记(三)train_mono.sh详解

train_mono.sh 是音素训练脚本,下面详细介绍各个功能: 1.首先是初始化GMM,使用的脚本是/kaldi-trunk/src/gmmbin/gmm-init-mono,输出是0.mdl和tree文件; 2.compile training graphs,使用的脚本是/kaldi-t...

2018-12-09 12:03:51 1032 0

原创 kalid笔记(二)

local/prepare_data.sh waves_yesno #!/bin/bash mkdir -p data/local local=`pwd`/local scripts=`pwd`/scripts export PATH=$PATH:`pwd`/../../../tools/...

2018-12-08 22:20:16 830 0

原创 kaldi笔记(一)

#!/bin/bash train_cmd="utils/run.pl" decode_cmd="utils/run.pl" if [ ! -d waves_yesno ]; then wget http://www.openslr.org/res...

2018-12-08 22:17:55 225 0

原创 htk解码器网络

Htk解码器网络 之前看过一部分wfst解码器的代码,跟pocketsphinx的解码器部分结构上面不太一样,所以阅读了一下htk的解码器部分的说明,以期望对pocketsphinx的代码阅读有帮助。 参考资料: HTK book http://htk.eng.cam.ac.uk/downl...

2018-12-07 15:32:56 199 0

原创 kaldi nnet3 online2-wav-nnet3-latgen-faster decoder

int main(int argc, char *argv[]) {   try {     struct timeval start,stop,diff;     memset(&start,0,sizeof(struct timeval));     memset(&...

2018-12-06 16:54:54 2164 4

转载 系统学习机器学习之神经网络(十一) --TDNN

近来在了解卷积神经网络(CNN),后来查到CNN是受语音信号处理中时延神经网络(TDNN)影响而发明的。本篇的大部分内容都来自关于TDNN原始文献【1】的理解和整理。该文写与1989年,在识别"B", "D", "G"三个浊音中得到98....

2018-12-06 16:25:51 228 0

转载 kaldi中的hmm-topology介绍

kaldi中的hmm-topology介绍 kaldi中是对音素进行建模,使用HMM模型。一般情况下每个音素有3个状态,每个状态有2个弧。静音音素sil可能有5个状态,且每个状态可能不止2个弧。 kaldi中音素的HMM模型的topo文件,一般是由脚本utils/gen_topo.pl生成。一...

2018-12-06 15:10:04 411 0

转载 kali源代码简单说明

kaldi源代码简单说明 kaldi是开源的,基于C++的语音识别工具。一方面语音识别有较高的技术门槛,包含了很多方面的东西,另一方面kaldi集成了太多的东西,造成了其代码量很大,阅读起来很困难。 kaldi现在集成了很多的东西,造成其代码量很大,直接阅读起来感觉无从下手。但是,每个项目,一...

2018-12-06 14:52:37 475 0

转载 kaldi中TransitionModel介绍

kaldi中的HMM模型,实际就是一个TransitionModel对象。这个对象描述了音素的HMM拓扑结构,并保存了pdf-id和transition-id相关的信息,并且可以进行各种变量的转换。 TransitionModel的定义和实现位于transition-model.h和transit...

2018-12-06 14:31:04 604 0

转载 语音识别中的lattice与confusion network

https://blog.csdn.net/yutianzuijin/article/details/77621511 https://blog.csdn.net/yutianzuijin/article/details/78756130  arpa2fst 原理详解    

2018-12-06 09:01:46 333 0

原创 CMUSphinx Acoustic Model Types

CMUSphinx supports different types of the acoustic models: continuous, semi-continuous and phonetically tied (PTM). The difference between PTM, semi...

2018-11-30 16:23:23 132 0

转载 语音识别的基础知识与CMUsphinx介绍

         语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。        基于语音识别芯片的嵌入式产品也越来越多,如Sensory公司的RSC系列语音识别芯片、Infineon公司的Unispeech和Unilite语音芯片等,这些芯片在嵌入式硬件开发中...

2018-11-30 14:01:33 1639 0

转载 PocketSphinx语音识别系统的编译、安装和使用

PocketSphinx语音识别系统的编译、安装和使用         Sphinx是由美国卡内基梅隆大学开发的大词汇量、非特定人、连续英语语音识别系统。Sphinx从开发之初就得到了CMU、DARPA等多个部门的资助和支持,后来逐步发展为开源项目。目前CMU Sphinx小组开发的下列译码器:...

2018-11-30 13:58:20 398 0

原创 语音识别——DNN在线解码 aishell为例

http://kaldi-asr.org/doc/index.html https://blog.csdn.net/chinatelecom08/article/details/81392535 https://blog.csdn.net/it_king1/article/details/80...

2018-11-15 11:36:20 577 0

原创 语音识别学习记录 [kaldi中的openfst]

在Kaldi tutorial: Overview of the distribution中介绍了一个使用openfst的例子。先来介绍一下这个例子,再来说明FST(finite-state transducers,有限状态机)如何应用到语音识别中。 首先有三个文件,text.fst、isyms...

2018-11-15 08:47:47 399 0

原创 kaldi资料

Kaldi官网 http://kaldi-asr.org/doc/index.html 包括一大堆原理和工具的使用说明,有什么问题请首先看这个。 Kaldi Lecture http://www.danielpovey.com/kaldi-lectures.html 相比于上一个会给一个更简略的...

2018-10-19 16:12:39 407 0

转载 基于RNN的音频降噪算法

前几天无意间看到一个项目rnnoise。 项目地址: https://github.com/xiph/rnnoise 基于RNN的音频降噪算法。 采用的是 GRU/LSTM 模型。 阅读下训练代码,可惜的是作者没有提供数据训练集。 不过基本可以断定他采用的数据集里,肯定有urbansou...

2018-08-20 22:19:30 7038 5

转载 Tensorflow卷积实现原理+手写python代码实现卷积

  从一个通道的图片进行卷积生成新的单通道图的过程很容易理解,对于多个通道卷积后生成多个通道的图理解起来有点抽象。本文以通俗易懂的方式讲述卷积,并辅以图片解释,能快速理解卷积的实现原理。最后手写python代码实现卷积过程,让Tensorflow卷积在我们面前不再是黑箱子! 注意: 本文只...

2018-08-12 21:54:08 618 0

转载 语音波形,截断的频域输出以及语谱图制作

语音可视化 参考链接1 参考链接2 参考链接3 今天我想复现一下,文中语谱图提取部分的代码  由于输入的语音有单通道和双通道之分,处理方式是单通道不变,双通道只取一个通道的信息。附上代码: import wave as we import numpy as np import matpl...

2018-07-30 11:40:46 574 1

转载 音色与声谱图

泛音的种类和多少决定了音色 为什么有的人声音听起来暗,有的人听起来亮?事实上即使是唱同一个音高,大家的音色也天差地别,差别就在泛音上了。 一般来说 1. 泛音越充分的声音越饱满。 2. 低频泛音越充分的声音听起来越“厚实”,越“有力”。 3. 高频泛音越充分的声音穿透力越强,声音听起来越...

2018-07-30 11:24:46 6387 4

转载 STFT和声谱图,梅尔频谱(Mel Bank Features)与梅尔倒谱(MFCCs)

最近小编在做ASC(Acoustic Scene Classification)问题,不管是用传统的GMM模型,还是用机器学习中的SVM或神经网络模型,提取声音特征都是第一步。梅尔频谱和梅尔倒谱就是使用非常广泛的声音特征形式,小编与它们斗争已有一段时间了,在此总结一下使用它们的经验。 STFT和...

2018-07-30 10:58:56 2232 0

转载 FFT频谱分析原理

FFT频谱分析原理 采样定理:采样频率要大于信号频率的两倍。 N个采样点经过FFT变换后得到N个点的以复数形式记录的FFT结果。 假设采样频率为Fs,采样点数为N。那么FFT运算的结果就是N个复数(或N个点),每一个复数就对应着一个频率值以及该频率信号的幅值和相位。第一个点对应的频率为0Hz...

2018-07-30 09:57:41 24912 1

原创 语音识别学习记录

1.使用pyinstaller可以方便的实现Py文件转exe文件,这里是它的manual: http://www.pythonhosted.org/PyInstaller/   2.使用命令行: 1)首先cmd进入要转换的py文件所在目录 2)执行命令:pyinstaller myscri...

2018-07-25 21:11:29 309 0

转载 YOLOV1原理

问题背景:“end-to-end方法的典型代表就是有名的yolo。前面的方法中,CNN本质的作用还是用来分类,定位的功能其并没有做到。而yolo这种方法就是只通过CNN网络,就能够实现目标的定位和识别。” 这是在知乎上看到的一句话。我突然像看看YOLO的厉害之处在哪?所以写这篇博文。本文参考链接:...

2018-07-13 15:41:17 1737 0

原创 YOLO背景介绍

一、背景介绍YOLO(You Only Look Once: Unified, Real-Time Object Detection),是Joseph Redmon和Ali Farhadi等人于2015年提出的基于单个神经网络的目标检测系统。在2017年CVPR上,Joseph Redmon和Al...

2018-07-13 15:13:24 4168 0

转载 深度学习算法之YOLOv2

一. 久违的新版本       YOLO 问世已久,不过风头被SSD盖过不少,原作者自然不甘心,YOLO v2 的提出给我们带来了什么呢?       先看一下其在 v1的基础上做了哪些改进,直接引用作者的实验结果了:      条目不少,好多Trick,我们一个一个来看: A)Batch Nor...

2018-07-13 15:09:30 715 0

原创 keras-yolo3 笔记(一)

项目地址:https://github.com/qqwweee/keras-yolo3论文:YOLOv3: An Incremental Improvementkeras-yolo3IntroductionA Keras implementation of YOLOv3 (Tensorflow b...

2018-07-13 14:49:31 3685 0

转载 处理过拟合问题-Regularization

数学中的Regularization是为了解决overfitting问题而引入的一种方法。所谓overfitting就是在一些数学模型中由于过于复杂,有太多的观测参数,以至于一点点微小的误差都回产生巨大的影响,任何微小的数据扰动都会带来巨大的改变。在一些训练模型中用来fitting的data也会因...

2018-05-30 11:03:49 339 0

原创 语音识别:MFCC特征参数提取

Speech Processing for Machine Learning: Filter banks, Mel-Frequency Cepstral Coefficients (MFCCs) and What's In-BetweenSpeech processing plays a...

2018-03-30 15:25:25 1510 0

提示
确定要删除当前文章?
取消 删除