H-vector：论文阅读

最新推荐文章于 2023-05-09 14:27:36 发布

JanettaC

最新推荐文章于 2023-05-09 14:27:36 发布

阅读量159

点赞数

分类专栏：论文阅读 speaker embedding

本文链接：https://blog.csdn.net/weixin_40695631/article/details/114709715

版权

论文阅读同时被 2 个专栏收录

17 篇文章 1 订阅

订阅专栏

speaker embedding

2 篇文章 0 订阅

订阅专栏

在这里插入图片描述

任务

生成utterance-level embedding

做法

将音频语句看成一个文档，可以被分成若干段和帧（看成是文档中的句子和词语）。先得到segments representation后在综合起来得到utterance representation。

Hierarchical attention

在这里插入图片描述

Frame-level encoder and Attention

假设输入的Mel谱被分为N段： $\in \mathcal R^{MN*L}=\{S_1,S_2,...,S_N\}$ .
每一段为： $S_i \in \mathcal N ^{M*L}=\{x_{i1},...x_{i,M}\}$ , 包含M个L维的声学特征向量， $x_{i,t} \in \mathcal R^{1*L}$ .

在frame-level encoder中，每个段先经过各自的1-D CNN ，再经过一个双向的GRU。
$S_{i}^{'}= CNN(S_i)\\ \overrightarrow h_i = \overrightarrow {GRU} (S_{i}^{'})\\ \overleftarrow h_i = \overleftarrow {GRU}(S_{i}^{'})\\ h_i =[\overrightarrow h_i, \overleftarrow h_i]=\{h_{i,1},...h_{i,M}\}$

在frame-level attention层，先用两层的全连接层将 $h_i$ 转成score vector $z_i$ , 然后计算注意力权重：
$\alpha_{i,t} = \frac{exp(z_{i,t})}{\sum _{t=0}^M exp(z_{i,t})}\\ z_{i,t} = Relu(h_{i,t}W_{i,0}+b_{i,0})W_{i,1}\\ W_{i,0} \in \mathcal R^{E*E}, b_{i,0}\in \mathcal R^{1*E},W_{i,1} \in \mathcal R^{1*E} 共享参数\\ A_{i,t} = \alpha_{i,t}*h_{i,t}$

在 statistics pooling层，计算 $A_i$ 的均值向量 $\mu _i$ 和标准差向量 $\sigma _i$ , 之后将两个向量拼接在一起得到段向量 $V_{S_i}$
$V_{S_i} = concatenate (\mu _i, \sigma _i)$

frame-level的输出为： $V_S \in \mathcal R^{N*E} = \{V_{S_1},V_{S_2},...,V_{S_N}\}$

Segment level Encoder and attention

和 frame-level 的过程相似，但是减少了一个GRU层，目的是为了加速训练过程。
在attention层，权重计算过程为：
$\alpha _{i}^s = \frac{exp(z_i^s)}{\sum_{i=0}^N exp(z_i^s)}\\ z_i^s = Relu(V_{S_i}W_{n,0}+b_{n,0})W_{n,1}$

实验

数据集：

模型结构：
在这里插入图片描述

实验结果：
在这里插入图片描述

JanettaC

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
H-vector：论文阅读

任务生成utterance-level embedding做法将音频语句看成一个文档，可以被分成若干段和帧（看成是文档中的句子和词语）。先得到segments representation后在综合起来得到utterance representation。Hierarchical attentionFrame-level encoder and Attention假设输入的Mel谱被分为N段：S∈RMN∗L={S1,S2,...,SN}S \in \mathcal R^{MN*L}=\{S.
复制链接

扫一扫