Deep Speaker 详细介绍
前言:百度端到端说话人识别系统 Deep Speaker : an End-to-End Neural Speaker Embedding System,论文学习整理一下
0、补充知识
神经网络:
假设L层的输出为a[L],则L+1层得到的为 a[L]的线性变换 + 激活
- 线性变换:z[L+1] = w[L+1] * a[L] + b[L+1]
- 激活:a[L+1] = g( z[L+1] )
卷积层:
二维卷积核和三维卷积核:二位卷积核针对输入也是二维,二维卷积核可以想象成一个正方形,参数(高,宽);三维卷积核则针对三维输入(高,宽,通道数),可以想象成一个长方体,参数中多了一个 “通道数”,一般卷积核的通道数与输入数据的通道数是一样的,所以维度上的变化在于卷积核的个数。
卷积核参数:三维卷积核 一般设置4个参数,(高,宽,输入通道数,卷积核个数),其中卷积核个数也就是输出时的第三维-输出通道数。
维度变化:输入三维数据(高, 宽, 通道数c),卷积核(尺寸x * y * c,步长)。其中卷积核尺寸和步长会改变输入的高和宽的维度;而卷积核的个数带来的是第三维的变化