Image/Video Processing
界明城
这个作者很懒,什么都没留下…
展开
-
ESC-50数据集的分析(1)
单个音频波形图和对应声谱图的可视化|特征可视化原始资料来自原作者的jupyter notebook[jupyter]这里的一些可视化工具,可能可以用来新的数据集分析,以及算法性能比较。本人誊写的代码在这里[source]单个音频波形图和对应声谱图的可视化特征可视化这里是用来分析所使用的音频特征的区分度(有效性)。可视化的方法有很多,但是背后其实是降维。以常用的音频特征MFCC为例,首先看一下在单个音频clip上的分布表现。这里用的seaborn的boxplot实现了一个特征分布的箱图。箱图.原创 2020-05-25 20:58:46 · 4327 阅读 · 3 评论 -
基于深度学习的语音识别技术综述(2)
书接上文,上一回说到这个front-end技术,这里就继续说back-end技术。Back-end techniques现在看看后端技术。这块对应语音处理的第二步,就是通过比较输入语音(语音特征)与预设的语音模型,来完成某项任务。在综述里,后端技术是指,输入的就是未经处理的带噪信号,直接通过神经网络来完成语音任务。和使用前端技术的方法相比,网络结构,甚至包括语音模型(acoustic model)都可能要改变。我们知道传统语音任务这块是构建GMM-HMM模型,学习输入语音特征和预设语音模型的关系。这是原创 2020-05-20 16:44:41 · 778 阅读 · 0 评论 -
ECS-50语音识别数据集baseline模型
"Envorinmental Sound Classification using Deep Learning"的复现报告说明|实验结果|讨论|下一步工作说明复现的工作是github上audio-classification。因为这个project的源码比较清楚,所以复现难度几乎为0. 所做的贡献:改写了数据集读取部分,因为原始代码是为esc-10工作的,而esc现在只有esc-50数据...原创 2020-04-29 16:40:37 · 2733 阅读 · 4 评论 -
深度数字语音处理
深度数字语音处理引言|有用的工具|知识体系|数学|传统特征 引言有用的工具语音数据集|奇怪的网站|开发环境|第三方库语音数据集数据集描述ESC-50 dataset该数据集由2000条语音组成,每条语音5秒,共分为50个语义类别(每个语义类别40条)奇怪的网站shields.io : 一个用来生成各种...原创 2020-04-26 09:57:04 · 3093 阅读 · 0 评论 -
H.265 3D视频编码
实验目的 对单视点视频+深度使用HEVC编码,编码使用不同量化步长。 2. 方案1-HTM 使用HTM-16.2-dev编码,选用3-view+depth, Nview+depth+qp, seqContent,联合编码,注意修改3-view-depth里面的文件路径,这里还需要camera parameter; 优势:参数可控; 劣势:编码速度太慢,500帧,3视点+d...原创 2018-06-15 15:56:52 · 2714 阅读 · 1 评论