语音识别
sparkexpert
大数据挖掘技术(人工智能)的爱好者
展开
-
G2P(单词到音素)的深度学习训练测试
音素提取是语音识别中的一块重要内容。G2P(Grapheme-to-Phoneme),英文意思是字素到音素,使用循环神经网络(recurrent neural network,RNN) 和LSTM( long short-termmemory units),来实现从英文单词到音素的转化。LSTM序列到序列模型(LSTM sequence-to-sequencemodel)已经被成功原创 2016-06-22 11:09:11 · 17163 阅读 · 1 评论 -
pyaudio库的安装(portaudio.h文件无法找到问题解决)
pyaudio是语音处理的python库,提供了比较丰富的功能。具体功能如下:特征提取(feature extraction):关于时域信号和频域信号都有所涉及分类(classification):监督学习,需要用已有的训练集来进行训练。交叉验证也实现了,进行参数优化使用。分类器可以保存在文件中以后使用。回归(regression):将语音信号映射到一个回归值。分割(segme原创 2017-02-22 20:20:31 · 12167 阅读 · 4 评论 -
C#语音播放引擎cscore及其播放器
最近在找一个C#语音播放器的时候,才发现这个几乎很难找到,当然也存在自己找资料不太全的问题。但是至少这个是存在的,常见的还是Naudio的东西。但是说实话,除非XAML的WPF东西,不然Naudio做出来的界面化东西还真不怎样。不过幸运的是,Naudio平台也出来了一个界面化渲染的东西,也支持多种渲染方式。试验了下,效果还是不错,只是没有将播放与控制放在一起,很多操作还是不原创 2017-03-09 20:22:58 · 3059 阅读 · 1 评论 -
基于Tensorflow的VCTK语音识别例子测试
语音识别是深度学习早先攻克的几个领域之一。传统的基于HMM等的语音识别精度一直比较受限。但是深度学习还是给语音识别的精度带来了一个飞跃性的提高。本文在网上找了段代码实现了下,感觉非常简单就可以复现。不过看了过程,也非常简单,主要有几步:(1) 下载VCTK数据集;(2) 对数据集,提取每个WAV文件的MFCC特征以及对应的语音文本标注语料。(3) 设置CTC的损失目原创 2017-05-04 15:12:44 · 6382 阅读 · 8 评论 -
多语言文本到音素转换工具phonemizer实践
音素是语言识别领域的最小单元,文本到音素的转换是TTS任务(文本转语音)中重要的步骤之一,最近用了下python包(phonemizer),实践了下,觉得还挺有用的,因此记录一下过程。(1) 下载源码,https://github.com/bootphon/phonemizer(2) 进行源码的编译和查看,发现其调用的是festival and espeak/espeak-ng 两个系统的东西,即...原创 2018-04-16 12:52:49 · 5794 阅读 · 2 评论 -
SoundNet:根据声音来识别场景环境实践
在https://projects.csail.mit.edu/soundnet/原创 2018-06-27 23:00:39 · 7292 阅读 · 9 评论 -
CTC模型、安装及其pytorch绑定安装
CTC模型是语音识别模型中常见的模块之一,现有主流的语音识别系统经常采用该模型来实现端到端的语音识别。而CTC出现之前,语音识别模型的端到端识别效果还是相对较弱的,也就是说CTC解决了这一问题。1、CTC的相关原理深度学习的序列到序列模型可以解决许多现实任务,如:Image Classification Image Generation Language Modeling Sen...原创 2018-07-25 11:43:43 · 2108 阅读 · 0 评论 -
DeepSpeech源码编译及语音识别效果复现
DeepSpeech是国内百度推出的语音识别框架,目前已经出来第三版了。不过目前网上公开的代码都还是属于第二版的。1、Deepspeech各个版本演进(1) DeepSpeech V1其中百度研究团队于2014年底发布了第一代深度语音识别系统 Deep Speech 的研究论文,系统采用了端对端的深度学习技术,也就是说,系统不需要人工设计组件对噪声、混响或扬声器波动进行建模,而是直接从...原创 2018-07-26 15:22:54 · 19743 阅读 · 7 评论