[DeepLearning]Unsupervised feature learning for audio classification using convolutional deep belief

最新推荐文章于 2024-07-12 22:07:10 发布

风澈云间

最新推荐文章于 2024-07-12 22:07:10 发布

阅读量763

点赞数

分类专栏：深度学习文章标签：深度学习

深度学习专栏收录该内容

7 篇文章 1 订阅

订阅专栏

题目解读

使用卷积深度可信网络以非监督的方式学习语音数据的特征，用学习到的特征进行分类

文章特点

无监督
使用卷积受限玻尔玆曼机
多层（深度)网络

摘要

第一个使用深度学习的方式处理音频数据。
使用卷积深度可信网络无监督提取音频特征
使用提取的音频特征进行了多种不同的语音分类任务

简介

![深度可信网络][4]是一种生成式概率模型，包含一个可见层和多个隐藏层。每个隐藏层的单元学习底层单元的统计关系。可以通过贪心的逐层训练的方法对其进行有效的训练。而最近提出的![卷积深度可信网络][9]是对深度可信网络的改进，使其能够扩展到高维数据。

算法

Convolutional Restricted Boltzmann Machine(CRBM)

CRBM是CDBN的组成单元。
形式化定义
网络层的输入是单通道的时间序列数据，具有 $n_v$ 个帧（ $n_v$ 维的向量）
CRBM是常规RBM在卷积方面的扩展，可见层和隐藏层之间的权重到隐藏层的所有位置都是共享的。CRBM包括两层：输入层（可见层） $V$ 和隐藏层 $H$ 。隐藏层单元是二值的，可见层单元可以是二值或实数的。
输入为二值
隐藏层有 $K$ 个feature map，每个feature map共享 $n_W$ 维的滤波器，其权重用 $W^k$ 表示，每个feature map的大小为 $n_H$ ( $n_H=n_V-n_W+1$ ), 每个feature map共享偏置 $b_k$ ，每个可见层的单元共享偏置 $c$ 。得到能量函数：
$E(v,h) = -\sum\limits_{k=1}^K\sum\limits_{j=1}^{n_H}\sum\limits_{r=1}^{n_W}h_j^kW_r^kv_{j+r-1}-\sum\limits_{k=1}^Kb_k\sum\limits_{j=1}^{n_H}h_j^k-c\sum\limits_{i=1}^{n_V}v_i.$