语音
文章平均质量分 63
wbglearn
语音识别 机器学习 推荐系统 深度学习欢迎和大家讨论和交流。
展开
-
告诉大家的话
由于工作的原因,我对这个博客已经不在维护。一晃眼,毕业已经四年了,我还在从事语音这块的工作。大家有问题全部去语音杂谈微信公众号里问。kaldi日新月异,语音技术也日新月异,博客里有很多错误暂时也没法管理。望各位见谅。kaldi群有很多已经满了,建议大家一个一个试试。kaldi交流群为:367623211。kaldi新手群:279295537。kaldi新手交流群:374355...原创 2020-06-02 10:24:04 · 1631 阅读 · 1 评论 -
语音识别基本原理介绍之gmm-hmm续
在之前的博文里,我已经写过了一篇博文:语音识别系统原理介绍----gmm-hmm,但是觉得还是没有说清楚这个事情,特别是在gmm和hmm过程里。过段时间也要找工作了,很有必要再弄清楚。现在这里说下,但愿可以说的很清楚,如果有错误,欢迎指正。这里,提取特征这部分,我们就不再说说明了,这里直接说gmm了。当提完特征,接下来我们就需要计算声学似然比,也就是给定一个HMM的状态和观察序列,计算,这里的原创 2014-08-31 19:57:33 · 5977 阅读 · 15 评论 -
语音识别系统原理介绍-----dnn-hmm
最近看到一个ASR的课程,很不错吧。网址:http://www.inf.ed.ac.uk/teaching/courses/asr/。大家有时间可以去看下…… 接下来就开始说dnn-hmm系统吧。所谓的这个就是把之前gmm这部分换成dnn,基于这个我们可以认为,深度学习模型可以更好的去模拟我们的语音信号吧。先上个总图吧:看到这个图大家应该都可以很清楚地去理解了。下面分开介绍:1.特原创 2014-03-26 11:34:19 · 20949 阅读 · 4 评论 -
语音识别的一些概念
最近发现台湾的陈老师的语音识别课程主页,原创 2014-08-13 15:43:30 · 2750 阅读 · 0 评论 -
kaldi资料合集下载
应kaldi学习 语音深度学习群大家的强烈要求,现把kaldi的zilia原创 2014-07-07 16:28:36 · 5976 阅读 · 7 评论 -
kaldi主页上的翻译的事情(更新)
kaldi主页上的翻译的事情一直原创 2014-04-08 21:02:34 · 3378 阅读 · 4 评论 -
kaldi里的聚类机制
kaldi里的聚类机制这里讲阐述在kaldi里的聚类机制和接口。可以看Classes and functions related to clustering来了解涉及到的类和函数列表。这里不包括音素决策树聚类(看Decision tree internals和How decision trees are used in Kaldi),尽管这里介绍的类和函数是在音素聚类的代码的底层使用。翻译 2014-08-20 13:01:06 · 2448 阅读 · 0 评论 -
HMM topology and transition modeling
HMM topology and transition modeling介绍在这里我们将介绍在kaldi用如何表示HMM topologies和我们如何让建模和训练HMM 转移概率的。我们将简要的说下它是如何跟决策树联系的;决策树你可以在How decision trees are used in Kaldi和Decision tree internals这些地方看到更详细的; 对于这个里翻译 2014-08-17 21:15:44 · 3086 阅读 · 2 评论 -
如何利用kaldi提自己想要的特征(mfcc plp pitch)
首先,确保你的s5文件夹有conf local step utils文件夹。然后你把你的数据保存为test文件夹,比如test文件夹里有test1.wav test2.wav test3.wav。然后,新建个data文件夹,data文件夹新建个test文件夹,这个test文件夹里需要三个文件:wav.scp utt2spk spk2utt。Wav.scp可以这么写:test1 tes原创 2014-05-30 19:14:04 · 9627 阅读 · 3 评论 -
kaldi上的深度神经网络(Deep Neural Networks in Kaldi)
深度神经网络已经是语音识别领域最热的话题了。从2010年开始,许多关于深度神经网络的文章在这个领域发表。许多大型科技公司(谷歌和微软)开始把DNN用到他们的产品系统里。(备注:谷歌的应该是google now,微软的应该是win7和win8操作系统里的语音识别和他的SDK等等) 但是,没有一个工具箱像kaldi这样可以很好的提供支持。因为先进的技术无时无刻不在发展,这就意味着代码需要跟翻译 2014-01-01 14:58:17 · 5426 阅读 · 0 评论 -
语音识别系统原理介绍----gmm-hmm
从寒假前的博客:语音识别系统原理介绍---从gmm-hmm到dnn-hmm,最近有时间的时候我还是在不断的去理解gmm-hmm这个基准模型。下面我讲从提玩mfcc特征开始说起,希望可以让你有所收获吧。 提完mfcc特征,就相当于剩下一个13维*帧数的矩阵。接下来,就是用混合高斯模型了。怎么用?就用多维的高斯模型区模拟我们得到的矩阵,相当于拟合。相当于我们假设其服从高斯分布,然后我们寻找原创 2014-03-04 20:07:18 · 13829 阅读 · 7 评论 -
fftw库的window安装和linux安装和例子
机子里的FFTW库下了很长时间了,总也没有去搞。唉,有很多东西就是这样,千方百计搞过来,搞到手了就晾在那里了。记得《黄生借书说》里面说得对啊“书非借不能读也”。好了,感慨完毕。归入正题。Windows下FFTW库的安装1、 从网址http://www.fftw.org/install/windows.html上获得FFTW的windows dll预编译版本;2转载 2014-07-03 09:25:01 · 21756 阅读 · 2 评论 -
我们的语音识别有论坛了……
语音识别模块正式入驻nlp论坛,这里感谢nlp论坛里的管理员,谢谢他们可以为我们提供这个平台。 希望在这个平台里,大家可以相互学习,学习到更多的关于语音识别的东西。欢迎大家的加入和交流。 我们的语音识别模块主要分为语音识别文章子模块,语音识别工具箱子模块和其他子模块。下面我来分别介绍下每个子模块的功能,也希望大家可以对号发帖,你的帖子也会最可能最快的得到回复。原创 2014-06-04 23:24:33 · 3843 阅读 · 6 评论 -
语音资料和资源归总……(实时更新)
博客类: 1.bill xia 的博客:http://ibillxia.github.io/blog/categories/assp/ 这个大神的博客有深度学习的一些东西,有用。 2.zouxy09的博客:http://blog.csdn.net/zouxy09/article/category/1218766 zouxy09大神对深度学习原创 2014-02-25 20:50:33 · 6623 阅读 · 6 评论 -
Phn2vec Embeddings
昨天在我爱机器学习上看到翻译 2014-06-02 10:11:55 · 1565 阅读 · 2 评论 -
kaldi中的特征提取
本翻译原文http://kaldi.sourceforge.net/feat.html,由@煮八戒翻译,@wbglearn校对和修改。 特征提取简介我们做特征提取和波形读取的这部分代码,其目的是为了得到标准的MFCC(译注:梅尔倒谱系数)和PLP(译注:感知线性预测系数)特征,设置合理的默认值但留了一部分用户最有可能想调整的选项(如梅尔滤波器的个数,最小和最大截止频率等等)。这部分翻译 2014-05-14 10:36:27 · 10675 阅读 · 0 评论 -
kaldi中的数据准备
数据准备译者:V (shiwei@sz.pku.edu.cn) 水平有限,如有错误请多包涵。介绍在运行完示例脚本后(见Kaldi tutorial),你可能会想用自己的数据在Kaldi上跑一下。本节主要讲述如何准备相关数据。我们假设本页的读者使用的是最新版本的示例脚本(即在脚本目录下被命名为s5的那些,例如egs/rm/s5)。另外,除了阅读本页所述内容外,你还可以查看脚本目录下的那翻译 2014-05-19 12:24:17 · 21729 阅读 · 12 评论 -
kaldi学习的过程
最近太忙,群里大家讨论的不够积极,而且翻译的事情似乎大家还在进行zhong原创 2014-05-09 14:53:27 · 7563 阅读 · 0 评论 -
有关语音方面的深度学习资料合集
深度学习如火如荼的在发展着,在应用着,下面把一些深度学习在语音上d原创 2014-08-03 17:36:45 · 8110 阅读 · 3 评论 -
语音识别基本原理介绍----gmm-hmm中的embedded training (嵌入式训练)
本文是翻译Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition. Daniel Jurafsky & James H. Martin.Copyright c 2006, All rights r翻译 2014-09-01 21:48:28 · 6249 阅读 · 1 评论 -
微信公众账号发布了
是的,咱们开始使用微信公众账号了,名字叫语音杂谈,欢迎关注。有啥问题可以在微信公众账号后台回复我。已经有2篇了,分别为:1.语音杂谈2.推荐一个非常好的语音专题系列欢迎关注,欢迎讨论,谢谢……原创 2017-04-26 20:04:37 · 3112 阅读 · 1 评论 -
语音课程(此群已解散,请加kaldi群)
语音课程真的来了,真的来了,期待已久的可能真的来了。语音课堂群:499169362。 本次将邀请几位大神,他们都是从业多年。现在可以加群,但是是收费的,所以不考虑收费的就加入kaldi群吧。 后面人数达到50人后,课程将正式启动。后期的课程大纲和内容明细将逐步发布。 谢谢各位,有兴趣加群。记住是收费的。备注:收费 语音课堂。原创 2015-10-21 23:07:27 · 3547 阅读 · 6 评论 -
语音识别原理介绍-----(这次是收费的)
理解语音识别原理原创 2014-12-04 19:09:30 · 9122 阅读 · 1 评论 -
决策树是如何在kaldi中建立的
How decision trees are used in Kaldi介绍这部分将介绍音素决策树在kaldi中是如何建立和使用的,以及是如何将训练和图建立相交互的。对于决策树的构建的代码,可以看 Decision tree internals; 对于建立图解码的更多细节,可以看Decoding graph construction in Kaldi.最基本的实现方法就是自顶向下贪婪的翻译 2014-08-11 16:57:12 · 5725 阅读 · 0 评论 -
对各位语音识别新手的几句建议
对各位语音识别新手的建议由于工作的原因,很长时间不能更新博客和管理kaldi群,每天看着kaldi群的人数不断增长,由衷的为从事语音感到自豪,希望在我博客和群里能得到你们想要的,但我同时拒绝伸手党。这几年语音的发展很迅速,所以导致更多的人来学习:下面主要从2个方面来说明,一个是从学生角度,一个是从工业角度。希望以后问怎么学习和怎么研究的人会越来越少,当然我这里也只是抛砖引玉。学生角度如果你是本科生,原创 2016-03-14 22:55:41 · 13103 阅读 · 3 评论 -
kaldi上第一个免费的中文语音识别例子
今天在清华大学cslt实验室王东老师的分享下,kaldi终于有了免费的中文语音识别的例子,网址为:https://github.com/kaldi-asr/kaldi/tree/master/egs/thchs30。各位可以根据这个来训练自己的模型。 再次谢谢王东老师的付出。 此外,清华大学cslt分享的数据库还有很多,网址为:http://pan.baidu.com/s/1dEhUghz原创 2016-02-04 12:46:09 · 38404 阅读 · 12 评论 -
htk-3.5
htk-3.5终于在2015年最后一天来了,也没算失约。对于之前使用htk的人来说,算是一个福利吧。毫无疑问,新版添加了DNN部分。同步更新了HTKbook和源码,现在上传到百度云上,具体链接是:链接:http://pan.baidu.com/s/1pKmfZ4Z 密码:bh1y。大家可以下载看看……原创 2016-01-02 12:28:52 · 3431 阅读 · 0 评论 -
kaldi主页搬家了……
最近大家是不是发现kaldi主页打不开了,的确,kaldi已经全部从sourceforge搬家到github上了,具体的链接如下:1.kaldi主页的内容:http://kaldi-asr.org/doc/2.kaldi代码:https://github.com/kaldi-asr/kaldi3.更多的内容和消息:http://kaldi-asr.org/原创 2015-07-23 22:59:41 · 2177 阅读 · 0 评论 -
语音识别系统之htk-----连续语音识别
在零落_World的合作下,终于完成了htk实现连续语音识别的一个流程。中间遇到了很多不大不小的问题。具体的可以见: 1.原创 2013-12-29 15:00:59 · 11130 阅读 · 8 评论 -
kaldi中的深度神经网络
这里是翻译kaldi主页的深度神经网络这部分,主要包括karel的版本和dan的版本,由于现在更新了新的版本,所以重新翻译。这些也将在kaldi的中文版本gitbook中发布,如果你想加入,你与我们取得联系,为kaldi的中文版做点贡献。karel的深度神经网络翻译:wbgxx333@163.com时间:2014年4月翻译,2015年4月重新修改翻译综述这个文档主要来说kaldi中Karel Ves翻译 2015-05-11 10:35:33 · 20451 阅读 · 4 评论 -
音频、语音信号处理的相关需求(广告)
下面是某同学做出来的一些东西,有:电话语音状态识别、音乐检索、广告监测、相似性音乐比对。如果你需要一些语音或者音乐方面的需求没法解决,可以去尝试联系他。具体的四个应用链接如下:1.电话语音状态识别2.广告监测3.音乐检索4.相似性音频比对如果你有其他的需求,也可以去联系他。也许你的联系,可以减少你寻找的时间。谢谢……有任何问题也可以留言。也可以联系我,邮箱:wbgxx333@1原创 2015-03-10 14:21:07 · 2050 阅读 · 0 评论 -
kaldi群见面会的计
新学期的来临,我也开始忙碌毕设的事情,加上一些杂事,导致在群里没回复大家的问题,抱歉。今天开始写博客,主要为了下面几个事情:1.大概4月份上旬和中旬的时候,首先会去趟北京,希望没有其他事情的干扰吧。这次去北京的一大目的就是为了跟大家群里交流,剩下就是几个事情安排: 1)时间安排:最好是某个周末吧。具体时间希望大家可以讨论下; 2)场地安排:希望有场地的,有的可以提前跟我原创 2015-03-13 20:41:46 · 1538 阅读 · 0 评论 -
语音识别原理介绍------组队理解原理
之前我自己一直想把语音识别原理解释清楚,大家翻我的博客原创 2014-11-11 22:18:55 · 7126 阅读 · 2 评论 -
kaldi上使用gpu以及如何安装cuda
本博客是在@冒顿的指导下完成的。原创 2014-11-17 21:24:42 · 15601 阅读 · 4 评论 -
语音识别基本原理介绍------dnn-hmm续
很久没更新博客了,最近找工作找的不是原创 2014-10-25 14:29:36 · 12029 阅读 · 6 评论 -
跨年巨献-----timit数据库下载(不再提供下载)
上次在博文语音识别系统之htk-----连续语音识别中提到,一旦确认自己下载的timit是完整的,就会给大家的。前几天,有人在群里问timit数据库的事情,后来无意找到在linux下用命令下载,终于把http://www.fon.hum.uva.nl/david/ma_ssp/2007/TIMIT/下载完整。现在上传给大家,本来打算放csdn下载里,但比较麻烦。现在直接放我百度网盘里。希望对你原创 2013-12-31 20:41:44 · 12992 阅读 · 22 评论 -
语音识别基本原理介绍--gmm-hmm中训练的完整版
看了几天了,结合之前看kaldi里的训练,现在我觉得可以wanqua原创 2014-09-02 16:06:49 · 28326 阅读 · 4 评论 -
关于语音识别系统kaldi及qq群的一些想法
自从建议kaldi学习 语音深度学习的qq群以来原创 2014-04-22 18:55:35 · 2937 阅读 · 4 评论 -
定制你的语音识别-并行语音识别解码空间
自从智能手机的兴起以及siri 推出以来,大量的语音识别相关的产品开始进入普通用户的生活之中,像讯飞,腾讯,百度都推出了自己的语音产品。随着不同生活背景不同层次的用户越来越多,语音识别准确率始终是一个不得不说的伤心问题,老张家住在开新小区,每次用语音识别的时候都识别成开心小区,结果他变的很不开心。老王是个中药迷,稀奇古怪的药名连他小孙子都记不住,每次要和谁交流交流都得费劲的手动输入,因为语音识别总转载 2014-04-06 19:14:55 · 2096 阅读 · 0 评论 -
语音识别工具箱综述和产品介绍
今天是周末,想来想去,还是写一篇这样的博文吧。算是对语音识别这一段时间的总结,为后来的人融入铺好前面的路。这个只是工具箱的综述,不是语音识别的综述。希望您有所收获。 目前,语音识别领域公开的开源的代码或者说工具箱有:sphinx,htk,julius,kaldi。也许也有其他的吧。下面我尽量一一介绍:1.sphinx:这个是李开复的博士论文。后面不断的壮大,有了后来的版本。这个比较小原创 2013-12-29 16:42:12 · 3353 阅读 · 2 评论