智能识别
风口上的传奇
胡建华 从事深度学习算法,计算机视觉算法研究。
展开
-
语音识别资料收集
https://github.com/xxbb1234021/speech_recognitionTensorflow : 1.5.0训练与识别,使用清华数据库原创 2020-01-03 16:42:29 · 438 阅读 · 0 评论 -
挂载建立文件共享
挂载命令:mkdir -p /mnt/nfsmount -t nfs -o nolock 10.150.90.230:/home/npu_758 /mnt/nfs挂载NFS文件提示: wrong fs type, bad option, bad super blockhttps://blog.csdn.net/Jerry_1126/article/details/52234690在电脑上...原创 2019-05-15 14:11:50 · 148 阅读 · 0 评论 -
语音识别算法原理文档整理(十)
Kaldi单音素脚本从脚本run.sh来看,单音素训练#monophonesteps/train_mono.sh –boost-silence 1.25 –nj $n –cmd “$train_cmd” data/mfcc/train data/lang exp/mono || exit 1;#test monophone modellocal/thchs-30_decode...原创 2018-07-13 10:08:40 · 3690 阅读 · 3 评论 -
语音识别算法原理文档整理(九)
数据文件内容简介数据准备阶段的输出包含两部分。一部分与―数据相关(保存在诸如data/train/之类的目录下),另一部分则与语言相关(保存在诸如data/lang/之类的目录下)。 数据部分与数据集的录音相关,而―语言部分则与语言本身更相关的内容,例如发音字典、音素集合以及其他Kaldi需要的关于音素的额外信息。如果你想用已有的识别系统和语言模型对你的数据进行解码,那么你只需要重写―数据部分...原创 2018-06-23 21:25:48 · 2107 阅读 · 0 评论 -
语音识别算法原理文档整理(八)
2.工程定稿运行脚本前的最后一章, 你的工程将会变得完整。 2.1.工具附件 你需要添加在例子脚本中广泛使用的 kaldi 工具箱。 任务: 在 kaldi-trunk/egs/wsj/s5 目录下拷贝出两个文件夹(注意拷贝所有内容):‘utils’和‘steps’,并把它们放在你的/home/hujianhua/kaldi/egs/thchs30/s5目录下。你还可以为你的这些目录建立...原创 2018-06-23 21:14:23 · 822 阅读 · 0 评论 -
语音识别算法原理文档整理(七)
如何使用kaldi系统Kaldi运行流程前提: 你已经有了一定数量的包含不同说话人的的数字音频数据, 每一个音频文件是一个完整的句子。我们以清华30小时为例。 目的: 你想把你的音频数据分成训练部分和测试部分,搭建一个ASR系统并且对它进行训练和测试,得到一些解码结果。 首要任务:首先在 kaldi/egs/目录下创建一个名为 thchs30/s5 的文件夹,这是你存放有关你工程的...原创 2018-06-23 20:38:00 · 2433 阅读 · 0 评论 -
语音识别算法原理文档整理(六)
Viterbi算法(解码)解码的过程就是在给定声学特征的情况下,找到最可能对应的词组的过程,再次看如下求解目的的公式: 其中似然概率是在一系列给定声学frame情况下,计算每个对应的分类器得分,然后相乘得出的概率,使得其值变得很小,而P(W)比较大,这样就导致 P(w)权重太大了,所以需要对齐进行缩放,以平衡贡献值,所以把上面公式改写如下: 因为P(w)小于1,使LMSF大于...转载 2018-06-23 20:27:24 · 3225 阅读 · 0 评论 -
语音识别算法原理文档整理(五)
HMM算法隐马尔可夫模型的参数一般称为其三要素,包括初始状态概率,转移概率和观测概率。 三个主流算法: 概率计算问题即模型评价问题——前向算法和后向算法 学习问题即参数估计问题——Baum-Welch算法 预测问题即解码问题——Viterbi算法前向算法与后向算法首先引入前向变量αt(i):在时间t时刻,HMM输出序列为O1O2…OT,在第t时刻位于状态si的概率。 ...转载 2018-06-22 20:43:22 · 1067 阅读 · 0 评论 -
语音识别算法原理文档整理(四)
GMM算法1. GMM模型:样本数据x,该数据是有k个高斯混合产生的,每个 GMM 由 K 个 Gaussian 分布组成,每个 Gaussian 称为一个“Component”,这些 Component 线性加成在一起就组成了 GMM 的概率密度函数: 根据上面的式子,如果我们要从 GMM 的分布中随机地取一个点的话,实际上可以分为两步:首先随机地在这 K个Gaussian ...转载 2018-06-22 20:31:19 · 2497 阅读 · 3 评论 -
语音识别算法原理文档整理(三)
语音识别系统kaldi相关原理介绍Kaldi是一个非常强大的语音识别工具库,主要由Daniel Povey开发和维护。目前支持GMM-HMM、SGMM-HMM、DNN-HMM等多种语音识别的模型的训练和预测。其中DNN-HMM中的神经网络还可以由配置文件自定义,DNN、CNN、TDNN、LSTM以及Bidirectional-LSTM等神经网络结构均可支持。 目前在Github上这个...转载 2018-06-22 20:21:57 · 2665 阅读 · 0 评论 -
语音识别算法原理文档整理(二)
隐马尔可夫模型hmm隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。 例如我们可能得到这么一串数字(掷骰子10次):1 6 3 5 2 7 3 5 2 4 这串数字叫做可见状态链。但是在隐马尔可夫模型中,我们不仅仅有这么一串...转载 2018-06-22 20:17:49 · 2734 阅读 · 0 评论 -
语音识别算法原理文档整理(一)
MFCC提取过程声音是模拟信号,声音的时域波形只代表声压随时间变化的关系,不能很好的代表声音的特征,因此,必须将声音波形转换为声学特征向量。目前有许多声音特征提取方法,如梅尔频率倒谱系数MFCC、线性预测倒谱系数LPCC、多媒体内容描述接口MPEG7等,其中MFCC是基于倒谱的,更符合人的听觉原理,因而是最普遍、最有效的声音特征提取算法。在提取MFCC前,需要对声音做前期处理,包括模数转换、预...原创 2018-06-22 20:11:03 · 30164 阅读 · 3 评论 -
NanoPi NEO开发板使用方法
烧写系统镜像下载Ubuntu-Core with Qt-Embedded系统映像和烧写系统 官方提供的百度网盘地址:https://pan.baidu.com/s/1miMwKoK#list/path=%2F 先将NanoPi-NEO\official-ROMs\nanopi-neo-core-qte-sd4g-20160704.img.zip解压得到映像文件。以管理员身份运行tools目...原创 2018-06-12 16:07:04 · 5355 阅读 · 0 评论 -
HTK 在winows7系统上的安装教程
HTK 在winows7系统上的安装教程: 解压安装包: 首先在官网http://htk.eng.cam.ac.uk/上下载htk安装包,至于如何下载由于这里面不能够网络连接,只能跟大家说方法了,直接搜索"htk",找到一个"HTK Speech Recognition Toolkit"这个题目的网页(是一个英文的网站),在里面注册完账号,就可以下载了。对于英文不太精通的小原创 2018-05-02 10:57:28 · 440 阅读 · 0 评论