ASR
语音识别介绍和试试记录
西檬饭
这个作者很懒,什么都没留下…
展开
-
语音识别中seq2seq的输入数据构建
很多seq2seq的实战都是翻译问题,如英语转法语等。给模型构建的特征都是先建立字母或者词的字典,然后构建向量作为输入。最终的输入是一个0,1组成的三维向量。但是如果想将这个模型运用到其他领域,要怎么预处理数据呢?下面先展示机器翻译中输入数据的格式化,然后介绍语音识别中输入数据的格式化。原创 2020-04-18 13:45:51 · 1026 阅读 · 0 评论 -
如何使用CNN进行语音信号分析
CNN对图片分类能够取得很高的准确率,而语音信号经过傅里叶变换或者其他变换能够得到时间-频率图。大家的想法都很直接,能不能用于语音信号的分析?于是就有了下面的探索。。估计看完的小伙伴应该能够实现一个CNN对音频分类,同时也知道CNN在处理时间-频率图与普通图的不同之处。1.Quora 上的问题Can we apply CNN to frequency domain?https://www...原创 2019-07-18 20:16:48 · 7702 阅读 · 1 评论 -
音频信号增强
除了模型结构和超参数,数据是值得重视的。因为垃圾进,垃圾出。数据量不够是常见的问题,使用数据增强的方式产生合成新数据,从某种程度上可以提高模型的泛化能力。这里介绍一些基本的音频信号增强方法。语音增强方法添加噪声(noise injection),时间平移(shifting time), 改变音高和速度(changing pitch and speed).使用Numpy添加噪声和时间平移...翻译 2019-07-11 16:39:41 · 3099 阅读 · 0 评论 -
提取梅尔倒频谱系数(MFCCs) Python 实例
1. 安装库 pip install python_speech_features2. 代码:#!/usr/bin/env pythonfrom python_speech_features import logfbankfrom python_speech_features import mfccfrom python_speech_features import del...原创 2018-04-25 19:51:38 · 3668 阅读 · 0 评论 -
hanmming窗和hamming窗的作用
什么是汉明窗?加Hanmming窗的作用? 1.什么是汉明窗?答:我是做语音识别的,我就从语音的角度跟你说一下吧。 语音信号一般在10ms到30ms之间,我们可以把它看成是平稳的。为了处理语音信号,我们要对语音信号进行加窗,也就是一次仅处理窗中的数据。因为实际的语音信号是很长的,我们不能也不必对非常长的数据进行一次性处理。明智的解决办法就是每次取一段数据,进行分析,然后再取下一段数据,再转载 2018-02-07 20:13:50 · 29360 阅读 · 0 评论 -
梅尔倒频谱系数(Mel-frequency cepstrum Coefficents)
简介梅尔倒频谱(MFC) 在声音处理中,梅尔倒频谱(MFC)表示了声音短时功率谱。它基于非线性梅尔刻度频率的对数功率谱的一个线性余弦变换。 梅尔频率倒谱系数(MFCC) 梅尔频率倒谱系数(MFCC)是所有构成MFC的系数。倒谱和梅尔频率倒谱的区别 在梅尔倒频谱中,频带是等距地分布在Mel尺度上的,相比于在正常倒谱中线性间隔的频带,这种等距分布的频带其更接近于人类的听觉系统。这种频带...原创 2018-02-08 09:36:11 · 7881 阅读 · 0 评论 -
动态时间规整matlab和python代码
几篇写得很好的文章:【重大修改】动态时间规整(Dynamic Time Warping)算法笔记-DTW动态时间规整动态时间规整算法(Dynamic Time Warping, DTW)之初探单词语音识别matlab代码:参考这里: 【重大修改】动态时间规整(Dynamic Time Warping)python代码:import numpy as npimport matpl...原创 2020-02-27 16:49:45 · 1234 阅读 · 0 评论 -
kaldi 的安装和测试
使用git的方法下载源码安装kaldi1. git下载源码参考这个官方的tutorial即可。 在安装了git的前提下使用下面的命令,没有安装git的话可以参考<在ubuntu上安装Git>。git clone https://github.com/kaldi-asr/kaldi.git kaldi-trunk --origin golden“trunk”标识的版本是...原创 2018-08-13 20:15:01 · 1131 阅读 · 0 评论 -
语音识别中的标注问题和嵌入式训练
什么是嵌入式训练(Embedded Training)?序列的标注问题机器学习的问题主要分为三类:分类问题,标注问题和回归问题 标注问题的输入是一个观测序列,输出是一个标记序列或者状态序列。标注问题的一个目标是训练一个模型,是他能够对观测序列给出标记序列和状态序列。 常用的统计学习方法: 隐马尔科夫莫慈宁宫,条件随机场。 在信息提取和自然语言处理中,标记问题是常见的基本问题。...原创 2018-06-08 15:52:25 · 2477 阅读 · 0 评论