![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
语音识别
J_Xiong0117
一枚终生学习的算法工程师
展开
-
ASR—音频数据断句切割
按语音停顿切分直接用pydub库,实现拆分的核心就是这一行代码:这里silence_thresh是认定小于-50dBFS以下的为silence,发现小于-50dBFS部分超过 1000毫秒,就进行拆分#!/usr/bin/env python3# encoding: utf-8'''@file: audio_breakage.py@time: 2020/5/10 0010 15:18@author: Jack@contact: jack18588951684@163.com'''fr原创 2020-05-12 21:12:13 · 3576 阅读 · 2 评论 -
ASR-声学特征提取
文章目录方法一:MFCC特征提取step 1:A/D转换(采样)step 2:预加重step 3:加窗分帧step 4:DFT+取平方step 5:Mel滤波step 6:取对数step 7:IDFTstep 8:动态特征方法二:深度学习特征提取step 1:采样step 2:分帧step 3:傅里叶变换step 4:识别字符step 5:获取映射图方法一:MFCC特征提取step 1:A/...原创 2020-04-06 18:40:42 · 3088 阅读 · 0 评论 -
ASR-Listen,Attend and Spell(LAS)论文阅读笔记
Listen,Attend and Spell(LAS)论文阅读笔记发表时间:2015年8月5号paper链接:https://arxiv.org/pdf/1508.01211.pdf简介Listen,Attend and Spell(LAS)是一种学习将语音转换成字符的神经网络。与传统的dnn - hmm模型不同的是,LAS模型联合学习(jointly)语音识别器的所有组件。LAS系统有...原创 2020-02-23 22:47:39 · 3628 阅读 · 0 评论 -
ASR-MFCC特征的物理意义
文章目录一.MFCC简介二.MFCC特征提取过程三.MFCC的物理含义一.MFCC简介梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,它与频率的关系可用下式近似表示:式中f为频率,单位为Hz。下图展示了Mel频率与线性频率的关系:MFCC特征组成...原创 2020-01-12 22:08:01 · 3206 阅读 · 0 评论 -
ASR-语音预处理(一):音频读取
一.音频读取二.代码:三.程序输出:一.音频读取 这是语音识别系列的第一篇博文,主要介绍音频如何读取以及如何转成矩阵形式。 输入:wav文件 例:A2_1.wav 输出:输入的wav文件所对应的数据矩阵wave_data和帧率framerate。 例:[[1507 1374 1218 … -78 -127 -43]] ,16000...原创 2018-09-04 11:12:09 · 4483 阅读 · 6 评论 -
ASR-语音预处理(三):可视化
一.可视化二.代码:三.程序输出:一.可视化 本节主要介绍如何将语音信号可视化,以及读取wav和label文件并保存为字典,列表。 输入:输入的wav文件所对应的数据矩阵wave_data和帧率framerate。 例:[[1507 1374 1218 … -78 -127 -43]] ,16000 输出:可视化图,如波形图,频谱图...原创 2018-09-10 11:03:18 · 1314 阅读 · 0 评论 -
ASR-语音预处理(二):时域转频域
一.时域转频域二.代码:三.程序输出:一.时域转频域 这节主要介绍如何经过傅里叶变换将音频转到频域,以便于后续的特征提取和识别。先后进行加窗、分帧、FFT和取log操作。 输入:音频矩阵wavsignal ,帧率fs 例:[[1507 1374 1218 … -78 -127 -43]],16000 输出:转成频域后的音频矩阵data_i...原创 2018-09-07 15:38:17 · 2381 阅读 · 0 评论