论文
论文:Speaker attribution with voice profiles by graph-based semi-supervised learning
摘要
在许多实际应用中(例如会议转录),都需要说话人分类,其中会根据说话人声音特征将说话人身份分配给每句语音。在本文中我们提出使用半监督的学习方法解决说话人分类问题。对每一个会话构建语音段的图,其中声音特征的段被标记结点表示,而来自测试语音的语音段被未标记结点表示。结点之间的边的权重是通过预先训练的说话人嵌入的语音片段之间的相似性来评估的。说话人分类变成了一个图上的半监督学习问题,其中有两种基于图的方法被使用:标签传播(LP)和图神经网络(GNNs)。提出的方法可以利用图的结构信息提升说话人分类的性能。对真实会议数据的实验结果表明,与独立处理每个话语的基线说话人识别方法相比,基于图的方法减少了多达68%的说话人分类错误。
本文主要贡献如下:
- 提出了第一种基于图的半监督学习方法的说话人分类方法;
- 研究了两种基于图的方法-标签传播和基于gnn的方法及其在说话人分类领域的应用;
- 用实际会议数据来评估所提出的方法。结果表明,基于图的方法明显优于基线方法,具有很大的实际应用潜力。
模型结构
基于图的说话人分类
基于图的有声音特征的说话人分类方法如下图所示:
构建语音段的相似性图
我们为每次会议的音频片段建立一个图。每个节点代表一个音频片段,它可以是单词级或话语级的,也可以是通过带有固定窗口位移的滑动窗口提取的。我们用每个线段的平均d向量作为节点特征。节点之间的边的权重用节点特征的余弦相似度表示,线性归一化到[0,1]。
这里有几种方法按相似点对构建图:
(1)简单的连接所有的结点,按点之间的相似性衡量边的权重;
(2)只连接这样的点,至少有一个或两个点都是另一个点的k-近邻;
(3)只保留权重大于阈值的边。
符号 | 解释 |
---|---|
G(V, E, A) | 一个包含相关说话人特征的会议会话可以被表示为一个图G |
V | 结点集合(语音段) |
ε | 边的集合 |
A ∈ RN×N | 亲和矩阵, eij = (vi, vj) ∈ ε,Aij > 0,and Aij = 0 otherwise |
N | 结点的数量 |
X = [x1, …, xN] ∈ RN×D | 结点的特征矩阵 |
xi | 第i个结点的d-vec的平均 |
D | embedding的维度 |
M,0<M<N | 假设前M个结点是被标记的结点 |
标签传播(LP)
手打数学公式太麻烦而且这不是这篇文章使用的方法,所以索性贴张图了:
基于图嵌入的方法
关于图神经网络在MPNN框架下的信息传递机制在上一篇博客中有解释,这里就说一下损失函数。该模型是使用的交叉熵损失函数。
符号 | 解释 |
---|---|
Fij | 第i个结点被预测的说话人ID,其形式是一个one-hot向量,0<j<C,C为说话人类别数量 |
Zij | 由Xout逐行做softmax得到的预测概率矩阵 |
Xout ∈ RN×C | 最后一层GCN输出的embedding矩阵 |
结果
主要就是比较baseline、LP和GCN方法的性能: