自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

pelhans的博客

所有文章均先发布在pelhans.com,后转发到CSDN

  • 博客(34)
  • 收藏
  • 关注

原创 基于tensorflow 的中文语音识别模型

目前网上关于tensorflow 的中文语音识别实现较少,而且结构功能较为简单。而百度在PaddlePaddle上的 Deepspeech2 实现功能却很强大,因此就做了一次大自然的搬运工把框架转为tensorflow….简介百度开源的基于PaddlePaddle的Deepspeech2实现功能强大,简单易用,但新框架上手有难度而且使用过程中遇到了很多bug,因此萌生了转成ten...

2018-08-03 14:47:38 13154 3

原创 现代语音信号处理笔记 (七) 语音特征参数估计

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里哦~ 本节针对《现代语音信号处理》这本书的第八章,对应基音估计和共振峰估计两部分。基音估计基音是语音信号的重要参数,在语音产生的数字模型中,也是激励源的一个重要参数。在汉语中,基音的变化模式为声调,可以帮助区别意义。准确检测语音信号的基音周期对高质量的语音分析与合成、语音压缩编码、语音识...

2018-07-09 17:38:12 3537 1

原创 现代语音信号处理笔记 (六) 语音信号的非线性分析

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里哦~ 本节针对《现代语音信号处理》这本书的第七章,对语音信号的非线性分析部分。语音信号的非线性分析统计信号处理的经典方法建立在线性、平稳及二阶统计量(特别是服从高斯分布)的基础上,在这些很强的约束条件下,经典的线性方法只能得到次优解,还有一些问题完全不能用线性模型描述。因而现代语音信号处...

2018-07-06 22:58:27 2550

原创 现代语音信号处理笔记 (五) 线性预测分析

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里哦~ 本节针对《现代语音信号处理》这本书的第六章,对线性预测分析应部分。线性预测分析线性预测(Linear Prediction COding, LPC)可及精确地估计语音参数,其基本思想是一个语音的取样可用过去若干语音取样的线性组合来逼近。通过使得实际语音取样与LPC取样间差值的平方...

2018-07-06 17:35:01 11615

原创 现代语音信号处理笔记 (四) 倒谱分析与同态滤波

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里哦~ 本节针对《现代语音信号处理》这本书的第五章,对应倒谱分析与同态滤波部分。倒谱分析与同态滤波语音信号可用一个线性时不变系统的输出表示,即看做声门激励信号与声道冲激响应的卷积。在语音信号处理领域,根据语音信号求解声门激励函数和声道激励相应有非常重要的意义,如要求出语音信号的共振峰(共振...

2018-07-05 17:18:15 4681

原创 现代语音信号处理笔记 (三)

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里哦~ 本节针对《现代语音信号处理》这本书的第四章,对应短时傅里叶分析部分。时域分析傅里叶分析是分析线性系统和平稳信号稳态特性的有力手段,这种以复指数函数为奇函数的正交变换在理论上完善并便于理解。通过傅里叶分析可使得信号的某些特性变得很明显。在语音信号分析中,傅里叶分析一方面因为稳态语...

2018-07-05 17:14:44 1246

原创 现代语音信号处理笔记 (二) 时域分析

本节针对《现代语音信号处理》这本书的第三章,即时域分析部分。时域分析根据语音分析的参数的不同,语音信号分析分为时域、频域、倒谱域、时频域、小波域、高阶累积量域等方法。时域分析具有简单、运算量小、物理意义明确等有点;但更为有效的分析大多围绕频域进行,因为语音中最重要的感知特性反映在其功率谱中,而相位变化只起到很小作用。另一方面,按照语音学观点,可将语音特征的表示和提取分为模型分析和非...

2018-07-04 22:25:51 4325

原创 现代语音信号处理笔记 (一)

本系列笔记对胡航老师的现代语音信号处理这本书的语音处理部分进行总结,包含语音信号处理基础、语音信号分析、语音编码三部分。一开始以为三部分总结到一篇文章里就可以了,但写着写着发现事情并没有那么简单。。。因此还是老老实实的总结吧,扎实的基础最重要。语音信号处理基础语音信号的处理简称语音处理,是用数字信号处理技术对语音信号进行处理的一门学科。语音信号均采用数字方式进行处理,语音信号的数字...

2018-07-03 17:28:17 17144 2

原创 通用正则表达式与python中的正则匹配

正则表达式正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。常用符号非打印字符\cx 匹配由x指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为...

2018-06-22 12:32:33 5137

转载 常用文本处理 sed, awk

P1 sed 命令的使用作者:winwill2012 链接:https://www.zhihu.com/question/30074714/answer/64706509 来源:知乎 著作权归作者所有,转载请联系作者获得授权。概述sed是stream editor的简称,也就是流编辑器。它一次处理一行内容,处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(patter...

2018-06-21 16:50:31 330

原创 知识图谱入门 (九) 知识问答

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里哦~ 本节对知识问答的概念做一个概述并介绍KBQA实现过程中存在的挑战,而后对知识问答主流方法做一个介绍。知识问答简介问答系统的历史如下图所示:可以看出,整体进程由基于模板到信息检索到基于知识库的问答。基于信息检索的问答算法是基于关键词匹配+信息抽取、浅层语义分析。基于社区的问答...

2018-04-28 15:56:13 11993 4

原创 知识图谱入门 (八) 语义搜索

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里哦~ 本节对语义搜索做一个简单的介绍,而后介绍语义数据搜索、混合搜索。该部分理解不深,后续会进一步补充。语义搜索简介什么是语义搜索,借用万维网之父Tim Berners-Lee的解释 “语义搜索的本质是通过数学来拜托当今搜索中使用的猜测和近似,并为词语的含义以及它们如何关联到我们在搜索引...

2018-04-27 15:39:47 13588 2

原创 知识图谱入门 (七) 知识推理

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里哦~ 本节对本体任务推理做一个简单的介绍,并介绍本体推理任务的分类。而后对本体推理的方法和工具做一个介绍。知识推理简介知识推理任务分类所谓推理就是通过各种方法获取新的知识或者结论,这些知识和结论满足语义。其具体任务可分为可满足性(satisfiability)、分类(clas...

2018-04-26 11:19:19 58961 11

原创 知识图谱入门 (六) 知识融合

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里哦~ 本节主要介绍知识融合相关技术,首先介绍了什么是知识融合,其次对知识融合技术的流程做一个介绍并对知识融合常用工具做一个简单介绍。知识融合简介知识融合,即合并两个知识图谱(本体),基本的问题都是研究怎样将来自多个来源的关于同一个实体或概念的描述信息融合起来。需要确认的是: ...

2018-04-24 16:41:06 41626 2

原创 知识图谱入门 (五) 知识存储

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里哦~ 知识存储,即获取到的三元组和schema如何存储在计算机中。本节从以Jena为例,对知识在数据库中的导入、存储、查询、更新做一个简要的介绍,而后对主流的图数据库进行介绍。图数据库简介图数据库源起欧拉和图理论(graph theory),也称为面向/基于图的数据库,对应的英文是G...

2018-04-20 16:18:49 12256 1

原创 知识图谱入门 (四) 知识挖掘

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里哦~ 本节介绍了知识挖掘的相关技术,包含实体链接与消歧,知识规则挖掘,知识图谱表示学习。知识挖掘知识挖掘是指从数据中获取实体及新的实体链接和新的关联规则等信息。主要的技术包含实体的链接与消歧、知识规则挖掘、知识图谱表示学习等。其中实体链接与消歧为知识的内容挖掘,知识规则挖掘属于结构挖...

2018-04-20 16:16:33 11501 7

原创 知识图谱入门 (三) 知识抽取

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里哦~ 本节介绍了针对结构化数据、非结构化数据、半结构化数据的知识抽取方法。知识抽取的概念知识抽取,即从不同来源、不同结构的数据中进行知识提取,形成知识(结构化数据)存入到知识图谱。大体的任务分类与对应技术如下图所示:知识抽取的子任务命名实体识别 检测: 北京是忙碌...

2018-04-20 16:12:48 52276 12

原创 知识图谱入门 (二) 知识表示与知识建模

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里哦~ 本讲首先对早期的知识表示做了一个简单介绍,而后详细介绍了基于语义网的知识表示框架,如RDF和RDFS和查询语言SQARQL。最终给出几个典型的知识项目的知识表示。知识表示历史知识的概念知识表示就是对知识的一种描述,或者说是对知识的一组约定,一种计算机可以接受的用于描述知...

2018-04-20 16:04:59 32002

原创 知识图谱入门 (一) 知识图谱与语义技术概览

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里哦~ 知识图谱与语义技术概览。主要介绍知识表示、知识抽取、知识存储、知识融合、知识推理、知识众包、语义搜索、知识问答等内容。同时还包含一些典型的应用案例。若理解有偏差还请指正。知识图谱与语义技术概览知识图谱的概念演化知识图谱(Knowledge Graph, KG)的概念演化...

2018-04-20 15:57:14 29171 12

原创 Kaldi thchs30手札(八)DAE与TDNN(line 109-115)

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里~ 本部分是对Kaldi thchs30 中run.sh的代码的line 109-115 行研究和知识总结,主要内容为带噪声的神经网络模型以及TDNN的训练。概览首先放代码:#train dae model #python2.6 or ab...

2018-04-19 13:55:38 3236 5

原创 Kaldi thchs30手札(七) DNN-HMM模型的训练

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里~ 本部分是对Kaldi thchs30 中run.sh的代码的line 106-107 行研究和知识总结,主要内容为Kaldi中nnet1的DNN-HMM模型训练。概览首先放代码:#train dnn model ...

2018-04-19 13:53:26 5891 1

原创 Kaldi thchs30手札(六)说话人自适应训练(SAT)、FMLLR以及quick训练(line 87-104)

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里~ 本部分是对Kaldi thchs30 中run.sh的代码的line 87-104 行研究和知识总结,内容涵盖说话人自适应训练(Speaker Adaptive Training,SAT)以及特征空间最大似然线性回归(Feature-space Maximum Likelihood Linea...

2018-04-19 13:48:25 5448 1

原创 Kaldi thchs30手札(五)LDA与MLLT(line 78-85)

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里~ 本部分是对Kaldi thchs30 中run.sh的代码的line 78-85 行研究和知识总结,内容涵盖LDA和MLLT部分。概览首先放代码:#lda_mlltsteps/train_lda_mllt.sh --cmd "$train_cmd" --splice-opt...

2018-04-19 13:45:50 3592

原创 Kaldi thchs30手札(四)三音子模型(line 71-76)

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里~ 本部分是对Kaldi thchs30 中run.sh的代码的line 71-76 行研究和知识总结,内容为三音子模型的训练与解码测试概览首先放代码:<code class="hljs livecodeserver">{% highlight bash %}#tr...

2018-04-19 13:29:20 1624

原创 Kaldi thchs30手札(三)单音素模型训练(line 62-68)

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里~ 本部分是对Kaldi thchs30 中run.sh的代码的line 62-68行研究和知识总结,内容为单音素模型的训练与解码。概览先把代码放在这里:#monophone steps/train_mono.sh --boost-silence 1.25 --nj $...

2018-04-19 11:18:25 2577

原创 Kaldi thchs30手札(二)word-graph(line 38-60)

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里~ 本部分是对Kaldi thchs30 中run.sh的代码的line 38-60行研究和知识总结,重点是word-graph的建立。概览先把代码放在这里:#prepare language stuff#build a large lexicon that invovles ...

2018-04-19 11:12:54 1903

原创 Kaldi thchs30手札(一)特征提取阶段(line 0-33)

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里~ Kaldi是一个语音识别工具包,基于C++并遵循Apache v2.0协议。它包含语音信号处理、声学模型训练、解码等一系列工具,同时内部还带有各种语言的源代码实例。非常强大。thchs30 的运行程序到手,当然是先跑起来看看长什么样子,功能是什么。所以本部分先介绍Kaldi的运行。...

2018-04-19 11:06:49 2320

原创 语音识别笔记 (六) 多遍解码、三音子模型

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里~ 本讲我们来简要讨论一些语音识别的高级话题,包含多遍解码和三音子模型。 第六讲多通道解码(Multi-pass Decoding)在上一讲中,我们介绍了基于Viterbi算法的解码方案。但在实际中的应用,它有两个主要的限制。第一个是因为Viterbi算法算法返回的实际上不是...

2018-04-19 10:58:15 2323

原创 语音识别笔记 (五) MFCC,搜索-解码,Embedded Training

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里~ 讲完声学模型的建立,现在我们就来讲讲它的输入和输出应该怎么处理.第五讲梅尔频率倒谱系数(MFCC)在一个ASR系统中,第一步要做的就是特征提取.从前面的计算音系学部分可知,声音的音高等信息能体现一个人的语音特性.一个人的语音特性可以体现在声道的形状上,如果可以准确知道这个...

2018-04-19 09:40:19 1659

原创 语音识别笔记 (四) 基于GMM-HMM的自动语音识别框架

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里~ 尽管基于GMM-HMM的语音识别模型已基本被神经网络所取代,但其背后的思想和处理方式仍需要我们仔细学习。第四讲自动语音识别(automaic speech recognition)就是建立一个将声学信号转化为文字的系统,而自动语言理解则更进一步,它需要对句子的含义进行理解.一...

2018-03-19 17:37:22 8463 3

原创 语音识别笔记(三) 隐马尔科夫模型-HMM

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里~ HMM作为一种典型的生成模型,在各个领域被广泛应用。我之前一直以为在NLP的序列标注任务中已经完全被CRF取代了,但最近的学习才发现它惊人的生命力。第三讲个人由于多多少学过一些马尔科夫相关内容,因此关于过于基础的知识和公式推导此处将被略去,如有疑问,还请在评论区留言。概述...

2018-03-19 17:28:49 2559

原创 语音识别笔记(二)计算音系学

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里~ 研究词是如何通过音子(phone)的单个语言单位发出声音的。第三讲基于语音的文字系统表明,口语词是由言语的最小单位组合而成的,这是作为我们所有的现代音系学理论的最基础的原始理论。音系学(phonology)是语言学的一个分支,它要系统地描述音子在不同的环境中的不同实现情况,并且研...

2018-03-19 17:18:02 1016

原创 语音识别笔记(一)简介与高斯混合模型

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里~ 黄学东老师那本太厚了。。。自己根据需要先四处搜集学习吧~第一章 简介自动语音识别(Automatic speech recongnition, ASR)技术时使人与人。人与机器交流的关键技术,它将声学波形转换为人类的文字。一个语音对话系统通常包括四个主要组成部分的一个或多个,即语...

2018-03-19 17:11:55 4235

转载 numpy 备忘录

备忘录 - numpy基本方法总结一、数组方法创建数组:arange()创建一维数组;array()创建一维或多维数组,其参数是类似于数组的对象,如列表等反过来转换则可以使用numpy.ndarray.tolist()函数,如a.tolist()创建数组:np.zeros((2,3)),或者np.ones((2,3)),参数是一个元组分别表示行数和列数对应元素相乘,a * b,

2016-06-30 15:29:52 280

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除