语音识别
文章平均质量分 96
lbaihao
zephyr,data structure, algorithm, protocol,darknet,architecture
展开
-
MFCC特征提取
实验目的 1、熟练运用MATLAB软件进行语音信号实验; 2、熟悉短时分析原理、MFCC的原理; 3、学习运用MATLAB编程进行MFCC的提取; 4、学会利用短时分析原理提取MFCC特征序列;实验原理 MFCC: 语音识别和说话人识别中,常用的语音特征是基于Mel频率的倒谱系数(即MFCC)。MFCC参数是将人耳的听觉感知特性和语音的产生机制相结合原创 2018-01-30 21:29:45 · 1150 阅读 · 1 评论 -
CMUSphinx Acoustic Model Types
CMUSphinx supports different types of the acoustic models: continuous, semi-continuous and phonetically tied (PTM).The difference between PTM, semi-continuous and continuous models is the following....原创 2018-11-30 16:23:23 · 310 阅读 · 0 评论 -
语音识别的基础知识与CMUsphinx介绍
语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。 基于语音识别芯片的嵌入式产品也越来越多,如Sensory公司的RSC系列语音识别芯片、Infineon公司的Unispeech和Unilite语音芯片等,这些芯片在嵌入式硬件开发中得到了广泛的应用。在软件上,目前比较成功的语音识别软件有:Nuance、IBM的Viavoice和Mi...转载 2018-11-30 14:01:33 · 2015 阅读 · 0 评论 -
PocketSphinx语音识别系统的编译、安装和使用
PocketSphinx语音识别系统的编译、安装和使用 Sphinx是由美国卡内基梅隆大学开发的大词汇量、非特定人、连续英语语音识别系统。Sphinx从开发之初就得到了CMU、DARPA等多个部门的资助和支持,后来逐步发展为开源项目。目前CMU Sphinx小组开发的下列译码器: Sphinx-2采用半连续隐含马尔可夫模型(SCHMM)建模,采用的技术相对落后,使...转载 2018-11-30 13:58:20 · 1163 阅读 · 0 评论 -
基于RNN的音频降噪算法
前几天无意间看到一个项目rnnoise。项目地址: https://github.com/xiph/rnnoise基于RNN的音频降噪算法。采用的是 GRU/LSTM 模型。阅读下训练代码,可惜的是作者没有提供数据训练集。不过基本可以断定他采用的数据集里,肯定有urbansound8k。urbansound8k 数据集地址:https://serv.cusp.nyu.e...转载 2018-08-20 22:19:30 · 10792 阅读 · 5 评论 -
处理过拟合问题-Regularization
数学中的Regularization是为了解决overfitting问题而引入的一种方法。所谓overfitting就是在一些数学模型中由于过于复杂,有太多的观测参数,以至于一点点微小的误差都回产生巨大的影响,任何微小的数据扰动都会带来巨大的改变。在一些训练模型中用来fitting的data也会因为结构问题而Overfitting。 一般来说有两种克服Overfitting的方法:一是补偿模型的某...转载 2018-05-30 11:03:49 · 788 阅读 · 0 评论 -
语音识别:MFCC特征参数提取
Speech Processing for Machine Learning: Filter banks, Mel-Frequency Cepstral Coefficients (MFCCs) and What's In-BetweenSpeech processing plays an important role in any speech system whether its Automa...原创 2018-03-30 15:25:25 · 3018 阅读 · 0 评论 -
【wav音频解析】之wavread函数的C++实现
摘要: 最近我在用C++写音频处理相关的功能实现,在此过程中有一些体会,总结出来供日后回顾,同时与大家分享,接受批评指正。C++实现wav音频文件的解析,就是先读取原始采样数据,每次读16字节,然后将16字节的16进制数字转化成十进制数,再转换成其补码,并归一化。转换时注意大小端和符号问题。 ...转载 2018-03-20 22:19:28 · 5644 阅读 · 10 评论 -
语音识别:MFCC特征参数提取
记忆力不好,做个随笔,怕以后忘记。网上很多关于MFCC提取的文章,但本文纯粹我自己手码,本来不想写的,但这东西忘记的快,所以记录我自己看一个python demo并且自己本地debug的过程,在此把这个demo的步骤记下来,所以文章主要倾向说怎么做,而不是道理论述。由于python的matplotlib.pyplot库没有下载成功不会画图,文中大部分图片是我网上找的。必备基础知知识:1. 对数指数...转载 2018-03-16 18:08:46 · 8586 阅读 · 4 评论 -
鲁棒性语音识别系统设计与实现
本文主要采用matlab和C语言设计并实现了一个鲁棒性语音识别实验系统,通过该系统验证各种抗噪语音特征在不同信噪比的噪声环境下的识别率,并详细介绍了系统的结构以及开发工具与平台,最后介绍了系统的功能、实验流程以及该系统的实现。系统演示下载路径:http://pan.baidu.com/s/1o61Kaa2一、系统结构 本文研究的是非特定人鲁棒性转载 2018-02-05 09:37:39 · 981 阅读 · 1 评论 -
语音信号处理之(四)梅尔频率倒谱系数(MFCC)
语音信号处理之(四)梅尔频率倒谱系数(MFCC)zouxy09@qq.comhttp://blog.csdn.net/zouxy09 这学期有《语音信号处理》这门课,快考试了,所以也要了解了解相关的知识点。呵呵,平时没怎么听课,现在只能抱佛脚了。顺便也总结总结,好让自己的知识架构清晰点,也和大家分享下。下面总结的是第四个知识点:MFCC。因为花的时间不转载 2018-01-30 22:32:13 · 457 阅读 · 0 评论 -
htk解码器网络
Htk解码器网络之前看过一部分wfst解码器的代码,跟pocketsphinx的解码器部分结构上面不太一样,所以阅读了一下htk的解码器部分的说明,以期望对pocketsphinx的代码阅读有帮助。参考资料:HTK book http://htk.eng.cam.ac.uk/download.shtml 解码器网络一、 解码器网络的概况网络分为两种:word网络...原创 2018-12-07 15:32:56 · 632 阅读 · 0 评论