文献阅读:基于图的半监督学习在声音特征中的说话人分类的应用

论文

论文:Speaker attribution with voice profiles by graph-based semi-supervised learning

摘要

  在许多实际应用中(例如会议转录),都需要说话人分类,其中会根据说话人声音特征将说话人身份分配给每句语音。在本文中我们提出使用半监督的学习方法解决说话人分类问题。对每一个会话构建语音段的图,其中声音特征的段被标记结点表示,而来自测试语音的语音段被未标记结点表示。结点之间的边的权重是通过预先训练的说话人嵌入的语音片段之间的相似性来评估的。说话人分类变成了一个图上的半监督学习问题,其中有两种基于图的方法被使用:标签传播(LP)和图神经网络(GNNs)。提出的方法可以利用图的结构信息提升说话人分类的性能。对真实会议数据的实验结果表明,与独立处理每个话语的基线说话人识别方法相比,基于图的方法减少了多达68%的说话人分类错误。

  本文主要贡献如下:

  • 提出了第一种基于图的半监督学习方法的说话人分类方法;
  • 研究了两种基于图的方法-标签传播和基于gnn的方法及其在说话人分类领域的应用;
  • 用实际会议数据来评估所提出的方法。结果表明,基于图的方法明显优于基线方法,具有很大的实际应用潜力。

模型结构

基于图的说话人分类

  基于图的有声音特征的说话人分类方法如下图所示:
在这里插入图片描述

构建语音段的相似性图

  我们为每次会议的音频片段建立一个图。每个节点代表一个音频片段,它可以是单词级或话语级的,也可以是通过带有固定窗口位移的滑动窗口提取的。我们用每个线段的平均d向量作为节点特征。节点之间的边的权重用节点特征的余弦相似度表示,线性归一化到[0,1]。
  这里有几种方法按相似点对构建图:
(1)简单的连接所有的结点,按点之间的相似性衡量边的权重;
(2)只连接这样的点,至少有一个或两个点都是另一个点的k-近邻;
(3)只保留权重大于阈值的边。

符号解释
G(V, E, A)一个包含相关说话人特征的会议会话可以被表示为一个图G
V结点集合(语音段)
ε边的集合
A ∈ RN×N亲和矩阵, eij = (vi, vj) ∈ ε,Aij > 0,and Aij = 0 otherwise
N结点的数量
X = [x1, …, xN] ∈ RN×D结点的特征矩阵
xi第i个结点的d-vec的平均
Dembedding的维度
M,0<M<N假设前M个结点是被标记的结点
标签传播(LP)

手打数学公式太麻烦而且这不是这篇文章使用的方法,所以索性贴张图了:
在这里插入图片描述

基于图嵌入的方法

  关于图神经网络在MPNN框架下的信息传递机制在上一篇博客中有解释,这里就说一下损失函数。该模型是使用的交叉熵损失函数。
在这里插入图片描述

符号解释
Fij第i个结点被预测的说话人ID,其形式是一个one-hot向量,0<j<C,C为说话人类别数量
Zij由Xout逐行做softmax得到的预测概率矩阵
Xout ∈ RN×C最后一层GCN输出的embedding矩阵

结果

  主要就是比较baseline、LP和GCN方法的性能:
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
PCA(Principal Component Analysis)是一种常用的数据降维算法,可以通过将高维数据投影到低维空间,保留数据的主要信息,减小数据的维度,从而降低分类的复杂度。在流量分类,PCA可以用来处理网络流量数据,提取网络流量的主要特征,从而实现网络流量的分类识别。 以下是一些关于PCA在流量分类应用文献综述: 1. "Traffic classification using principal component analysis" by J. Li et al. (2014) 该文献提出了一种基于PCA的流量分类方法,该方法通过将网络流量数据投影到主成分空间,提取网络流量的主要特征,然后使用支持向量机(SVM)分类器对流量进行分类。实验结果表明,该方法可以有效地分类不同类型的网络流量。 2. "Traffic classification using principal component analysis and decision tree" by W. Wang et al. (2016) 该文献提出了一种基于PCA和决策树的流量分类方法,该方法首先使用PCA对网络流量数据进行降维处理,然后使用决策树分类器对流量进行分类。实验结果表明,该方法可以有效地分类不同类型的网络流量,并且具有较高的分类准确率。 3. "Traffic classification using principal component analysis and k-nearest neighbor" by H. Li et al. (2018) 该文献提出了一种基于PCA和k最近邻(k-NN)的流量分类方法,该方法通过使用PCA提取流量数据的主要特征,然后使用k-NN分类器对流量进行分类。实验结果表明,该方法可以有效地分类不同类型的网络流量,并且具有较高的分类准确率。 综上所述,PCA在流量分类具有广泛的应用前景,可以有效地处理网络流量数据,提取流量的主要特征,从而实现网络流量的分类识别

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值