speech
算法学习者
计算机各种知识学习笔记
展开
-
有关语音识别方面资料的收集
转载于:http://blog.csdn.NET/xiaoding133/article/details/8842945国际最顶尖会议:ICASSP:International Conference on Acoustics, Speech and Signal Processing ICSLP:International Conference on Semic转载 2017-05-01 02:24:14 · 7605 阅读 · 0 评论 -
配置Speech-to-Text-WaveNet
https://github.com/buriburisuri/speech-to-text-wavenet1. 为了不和之前环境冲突,我们使用python virtualenv安装tensorflowpip install virtualenvmkdir tensorflowvirtualenvtensorflow --no-site-packages原创 2017-05-21 23:13:44 · 4468 阅读 · 0 评论 -
百度贾磊LSTM+CTC详解
LSTM+CTC详解随着智能硬件的普及,语音交互请求会越来越多。 2011年之后,深度学习技术引入到语音识别之后,大家也一直再问一个问题,深度学习技术还能像刚提出时候那样,持续大幅度提升现在的语音识别技术吗?语音技术能够从小规模的使用转向全面产业化成熟吗? 如果全面产业化成熟,意味着会有越来越多的语音处理需求,但百度语音技术部的负责人贾磊说,如果线上50%的搜索都由语音完成,而转载 2017-06-18 15:14:18 · 3580 阅读 · 0 评论 -
CTC学习笔记(二) 训练和公式推导
整体思路训练流程和传统的神经网络类似,构建loss function,然后根据BP算法进行训练,不同之处在于传统的神经网络的训练准则是针对每帧数据,即每帧数据的训练误差最小,而CTC的训练准则是基于序列(比如语音识别的一整句话)的,比如最大化p(z|x),序列化的概率求解比较复杂,因为一个输出序列可以对应很多的路径,所有引入前后向算法来简化计算。前期准备输入 x,长度为转载 2017-06-18 15:52:54 · 1970 阅读 · 0 评论 -
Automatic_Speech_Recognition
https://github.com/zzw922cn/Automatic_Speech_RecognitionAutomatic-Speech-RecognitionEnd-to-end automatic speech recognition system implemented in TensorFlow.Recent Updates Suppor转载 2017-06-18 19:29:50 · 5137 阅读 · 0 评论 -
Warp-CTC
https://github.com/baidu-research/warp-ctc/blob/master/README.zh_cn.mdWarp-CTC是一个可以应用在CPU和GPU上高效并行的CTC代码库 (library) 介绍 CTCConnectionist Temporal Classification作为一个损失函数,用于在序列数据上进行监督式学习,不需要对齐输入数据及转载 2017-06-18 17:08:08 · 6292 阅读 · 2 评论 -
语音识别综述 awesome-speech-recognition-speech-synthesis-papers
https://github.com/zzw922cn/awesome-speech-recognition-speech-synthesis-papersawesome-speech-recognition-speech-synthesis-papersautomatic speech recognition/speech synthesis paper roadmap,转载 2017-06-24 23:17:36 · 5989 阅读 · 0 评论 -
TTS技术简单介绍和Ekho(余音)TTS的安装与编程
TTS技术简单介绍和Ekho(余音)TTS的安装与编程zouxy09@qq.comhttp://blog.csdn.net/zouxy09 一、TTS技术简单介绍: TTS技术,TTS是Text To Speech的缩写,即“从文本到语音”。它将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语(或者其他语言语音)输出转载 2017-06-28 01:50:45 · 2930 阅读 · 0 评论 -
Ekho 安装
https://github.com/hgneng/ekho/blob/master/INSTALL1. 下载源码http://sourceforge.net/projects/e-guidedog/files/Ekho/7.5/ekho-7.5.tar.xz2. 安装依赖sudo apt-get install libespeak-dev libsndfile1-dev原创 2017-06-28 02:13:08 · 4036 阅读 · 0 评论 -
How to Train a Simple Audio Recognition Network
https://www.tensorflow.org/versions/master/tutorials/audio_recognitionHow to Train a Simple Audio Recognition NetworkThis tutorial will show you how to build a basic speech recognition net转载 2017-08-25 20:28:06 · 1848 阅读 · 0 评论 -
MFCC 梅尔频率倒谱系数
推荐到我的主页 http://www.poodar.me去查看相关信息。TERM: MFCC 梅尔频率倒谱系数在任何的自动语音识别系统中,第一步一般都是提取特征,也就是识别出音频信号的组成部分,哪些部分有利于我们识别语义内容,从而舍弃掉其他不相关的信息,比如背景噪音,情绪等等。关于语音,我们首先需要了解的是一个人发出的声音是由人产生的声音是由包括舌,牙齿等vocal t转载 2017-06-04 19:39:17 · 3347 阅读 · 0 评论 -
语音信号处理之(四)梅尔频率倒谱系数(MFCC)
语音信号处理之(四)梅尔频率倒谱系数(MFCC)zouxy09@qq.comhttp://blog.csdn.net/zouxy09 这学期有《语音信号处理》这门课,快考试了,所以也要了解了解相关的知识点。呵呵,平时没怎么听课,现在只能抱佛脚了。顺便也总结总结,好让自己的知识架构清晰点,也和大家分享下。下面总结的是第四个知识点:MFCC。因为花的时间不转载 2017-05-10 17:12:21 · 7028 阅读 · 0 评论 -
语音识别的技术原理是什么?
https://www.zhihu.com/question/20398418转载 2017-05-01 02:48:29 · 11844 阅读 · 0 评论 -
安装scikits.audiolab
在Ubuntu上安装scikits.audiolab,用于一些音频文件的处理。参见官方文档的安装:http://cournape.github.io/audiolab/installing.html。 碰到问题,找不到sndfile相关的库:Directories to search for the libraries can be specified in the site.cfg转载 2017-05-11 13:18:49 · 7740 阅读 · 0 评论 -
基于kaldi的在线中文识别,online的操作介绍
最近研究了下kaldi,也看了好多文章,感觉这方面的有用文章太少! 大多停留在编译和深层理论方面。对于我们这种没有基础的人,除了看完编译,就只能很茫然的看哪些高高在上的理论了。本文章,适合那些。刚刚编辑完kaldi。想试试手,找找感觉的人来看的。如果你还没有编辑过,可以查查相关文章。有好多。声明一下,本文章,只适合在windows下装虚拟机UBuntu的机器上玩。你的虚拟机内存要大转载 2017-04-21 13:17:21 · 11789 阅读 · 5 评论 -
kaldi上第一个免费的中文语音识别例子
今天在清华大学cslt实验室王东老师的分享下,kaldi终于有了免费的中文语音识别的例子,网址为:https://github.com/kaldi-asr/kaldi/tree/master/egs/thchs30。各位可以根据这个来训练自己的模型。 再次谢谢王东老师的付出。 此外,清华大学cslt分享的数据库还有很多,网址为:http://pan.baidu.com/s/1dEhUghz转载 2017-04-21 13:19:14 · 16425 阅读 · 0 评论 -
有趣的开源软件:语音识别工具Kaldi (一)
最新人工智能论文:http://paperreading.clubKaldi是一个非常强大的语音识别工具库,主要由Daniel Povey开发和维护。目前支持GMM-HMM、SGMM-HMM、DNN-HMM等多种语音识别的模型的训练和预测。其中DNN-HMM中的神经网络还可以由配置文件自定义,DNN、CNN、TDNN、LSTM以及Bidirectional-LSTM等神经网络结构均可支持。...转载 2017-04-21 13:23:22 · 48958 阅读 · 3 评论 -
有趣的开源软件:语音识别工具Kaldi (二)
在上一篇blog中简单的介绍了Kaldi的安装方法 有趣的开源软件:语音识别工具Kaldi (一) 在这篇blog中继续Kaldi模型训练的步骤,介绍一下在模型训练之前的一些数据准备的工作。因为我也是正在学习语音识别和Kaldi,有些地方不一定说的很正确,如果发现错误,还请指正。在Kaldi源代码树中,有一个叫做egs的文件夹,在这个文件夹中保存着一些Kaldi在公共数据集上的训练步骤(s转载 2017-04-21 13:23:58 · 17576 阅读 · 2 评论 -
VAD实现 (一) --- 读取语音数据
一,什么是VADVAD,也就是语音端点检测技术,是Voice Activity Detection的缩写。这个技术的主要任务是从带有噪声的语音中准确的定位出语音的开始和结束点,因为语音中含有很长的静音,也就是把静音和实际语音分离开来,因为是语音数据的原始处理,所以VAD是语音信号处理过程的关键技术之一。它的好坏,直接影响成败,由于技术本身的特殊性,所以在涉及语音信号处理的领域,端点检测技术转载 2017-04-21 18:07:08 · 10187 阅读 · 0 评论 -
说话人识别中的VAD
本文根据kaldi中的vad的算法 kaldi/src/ivector/voice-activity-detection.cc以及网上的一些资源来总结一下这个知识点。首先VAD的全称是:Voice Activity Detection (语音激活检测), 能够区分传输语音信号中的语音信号和背景噪音, 当然还能在通信中区分语音和静默段能够区分传输语音信号中的语音信号和背景噪音,避转载 2017-05-14 20:47:34 · 13767 阅读 · 0 评论 -
语音识别概念
特征向量梅尔倒谱系数相对频谱变换-感知线性预测原创 2017-05-10 17:01:46 · 6450 阅读 · 0 评论 -
谷歌新一代WaveNet :深度学习怎么生成语音? | 2分钟论文
这里是,雷锋字幕组编译的Two minutes paper专栏,每周带大家用碎片时间阅览前沿技术,了解AI领域的最新研究成果。原标题 NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS | Two Minute Papers翻译 | 张锋凯 整理 | 凡江 林尤添在往期的2分钟论文栏目中,我们有谈...转载 2018-03-07 17:22:31 · 4591 阅读 · 0 评论