堆叠一维卷积来做唤醒

最新推荐文章于 2023-04-30 00:30:00 发布

A霸天下

最新推荐文章于 2023-04-30 00:30:00 发布

阅读量361

点赞数

分类专栏：语音信号处理人工智能

本文链接：https://blog.csdn.net/qq_43534932/article/details/112600159

版权

人工智能同时被 2 个专栏收录

25 篇文章 1 订阅

订阅专栏

语音信号处理

9 篇文章 2 订阅

订阅专栏

前言

一维卷积在语音和自然语言处理中十分常见，本篇paper：Stacked 1D convolutional networks for end-to-end small footprint voice trigger detection通过一个特征上的一维卷积和时间维度上的一维卷积来完成特征堆叠的。

论文

在这里插入图片描述
block结构如上图所示，其中现在特征维度上做一维卷积，然后在时间维度上做一维卷积，其中在时间维度上可以根据卷积核大小控制帧长。
本片论文的block实现也十分简单，正如论文中所说：

相当于一个2D卷积用了一个F1和一个1K的卷积核。

代码实现

import tensorflow as tf 



input=39#MFCC特征维数

x = tf.placeholder(tf.float32, [None, None, 39, 1])#输入数据
print(x)
conv1=tf.layers.conv2d(x,1,[3,1],strides=1, padding='same')#第一层一维卷积
print(conv1)
conv2=tf.layers.conv2d(conv1,1,[1,3],strides=1, padding='same')#第二层TDNN
print(conv2)