语音识别
antkillerfarm
这个作者很懒,什么都没留下…
展开
-
语音识别(一)——概述
概述虽然现在的语音识别中,DL已经应用的非常广泛了,但是语音识别终究还是有一些领域知识的,将之归类为DL或者ML,似乎都不妥当。特形成本系列文章,用以描述automatic speech recognition的领域知识和传统方法。说起来还是要感谢DL,不然按照传统的行业划分,几乎不会有人同时研究CV和ASR。DL的出现,实际上大大降低了算法的领域迁移成本,领域知识的重要性相对下降了。...原创 2018-08-13 09:33:57 · 14167 阅读 · 1 评论 -
语音识别(三)——声学模型, 解码器技术
声源定位(续)波束形成声源定位的方法包括波束形成,超分辨谱估计和TDOA,分别将声源和阵列之间的关系转变为空间波束,空间谱和到达时间差,并通过相应的信息进行定位。波束形成是通用的信号处理方法,这里是指将一定几何结构排列的麦克风阵列的各麦克风输出信号经过处理(例如加权、时延、求和等)形成空间指向性的方法。波束形成主要是抑制主瓣以外的声音干扰,这里也包括人声,比如几个人围绕Echo谈话...原创 2018-08-27 10:09:00 · 10505 阅读 · 1 评论 -
语音识别(二)——基本框架, Microphone Array, 声源定位
基本框架语音识别系统主要有四部分组成:信号处理和特征提取、声学模型、语言模型(Language Model, LM)和解码器(Decoder)。信号处理和特征提取部分以音频信号为输入,通过消除噪音、信道失真等对语音进行增强,将语音信号从时域转化到频域,并为后面的声学模型提取合适的特征。声学模型将声学和发音学的知识进行整合,以特征提取模块提取的特征为输入,生成声学模型得分。语言模...原创 2018-08-20 09:38:19 · 17331 阅读 · 2 评论 -
语音识别(四)——DTW, Spectrogram, Cepstrum Analysis
DTWDynamic Time Warping是Vintsiuk于1968年提出的算法。 Taras Klymovych Vintsiuk,1939~2012,乌克兰科学家,毕业于Kyiv Polytechnic Institute。模式识别专家,语音识别领域的奠基人之一。图1如上图所示,因为语音信号具有相当大的随机性,即使同一个人在不同时刻发同一个音,也不可能具有完全的...原创 2018-09-03 10:33:20 · 1821 阅读 · 0 评论 -
语音识别(五)——Mel-Frequency Analysis, FBank, 语音识别的评价指标, 声学模型进阶
Cepstrum Analysis(续)这里,我们对Fourier transform做一个简单的回顾。设h(t)是一个时域函数,而H(f)是一个频域函数,则Fourier transform为:H(f)=∫∞−∞h(t)e2πiftdtH(f)=∫−∞∞h(t)e2πiftdtH(f)=\int_{-\infty}^\infty h(t)e^{2\pi i ft}\mathrm{...原创 2018-09-10 09:47:54 · 8220 阅读 · 2 评论 -
Kaldi(一)
KaldiKaldi是一个语音识别的工具包。它由Daniel Povey于2009年创建。Daniel Povey,Johns Hopkins University副教授。个人主页:http://danielpovey.com/官网:https://github.com/kaldi-asr/kaldi文档:http://kaldi-asr.org/doc/此外,Daniel的...原创 2018-10-22 09:34:52 · 5641 阅读 · 0 评论