![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Multimedia Signal
界明城
这个作者很懒,什么都没留下…
展开
-
ESC-50数据集的分析(1)
单个音频波形图和对应声谱图的可视化|特征可视化原始资料来自原作者的jupyter notebook[jupyter]这里的一些可视化工具,可能可以用来新的数据集分析,以及算法性能比较。本人誊写的代码在这里[source]单个音频波形图和对应声谱图的可视化特征可视化这里是用来分析所使用的音频特征的区分度(有效性)。可视化的方法有很多,但是背后其实是降维。以常用的音频特征MFCC为例,首先看一下在单个音频clip上的分布表现。这里用的seaborn的boxplot实现了一个特征分布的箱图。箱图.原创 2020-05-25 20:58:46 · 4231 阅读 · 3 评论 -
基于深度学习的语音识别技术综述(2)
书接上文,上一回说到这个front-end技术,这里就继续说back-end技术。Back-end techniques现在看看后端技术。这块对应语音处理的第二步,就是通过比较输入语音(语音特征)与预设的语音模型,来完成某项任务。在综述里,后端技术是指,输入的就是未经处理的带噪信号,直接通过神经网络来完成语音任务。和使用前端技术的方法相比,网络结构,甚至包括语音模型(acoustic model)都可能要改变。我们知道传统语音任务这块是构建GMM-HMM模型,学习输入语音特征和预设语音模型的关系。这是原创 2020-05-20 16:44:41 · 755 阅读 · 0 评论 -
基于深度学习的语音识别技术综述(1)
Deep learning for automatic speech recognition survey[1]这篇综述质量尚可(废话,TIST的文章能不好,你有本事发一个)。TIST是什么?PIA打飞,百度去。通讯作者是Schuller,被引次数超过3万的大佬。听大佬的,少走弯路(Doge脸)。那这篇文章的关注点其实很聚焦:鲁棒的语音识别,也就是对有噪声语音的识别。所关注的技术是当红炸子鸡deep learning。有噪语音的识别,可以类比失真图像的识别。因为图像也好,语音也罢,本质上都是信号。那么原创 2020-05-18 22:12:45 · 3237 阅读 · 0 评论