2022年ICASSP说话人日志（Speaker Diarization）方向论文泛读总结

最新推荐文章于 2025-02-24 09:38:28 发布

Old.Dragon

最新推荐文章于 2025-02-24 09:38:28 发布

阅读量3.1k

点赞数 6

文章标签：深度学习语音识别人工智能

本文链接：https://blog.csdn.net/weixin_43433330/article/details/126247050

版权

研0小白，记录一下最近看的ICASSP里说话人日志（speaker diarization）或相关方向的论文，稍微总结了一下，不过有些翻译的可能不准确，请多多包涵。

1、A Multitask Learning Framework For Speaker Change Detection With Content Information From Unsupervised Speech Decomposition

作者单位：香港中文大学、华为云

描述：针对说话人变化检测（SCD）任务，通过多任务学习结构在训练阶段利用说话人信息，并加入从无监督语音分解模型中提取的内容信息来帮助检测说话人变化点。

2、A Multitask Learning Framework For Speaker Change Detection With Content Information From Unsupervised Speech Decomposition

作者单位：日本国立情报学研究所、日本SOKENDAI

描述：本文提出了一种新的注意力后端模型，可以同时用于文本独立(TI)和文本依赖(TD)的说话人验证，并使用scaled-dot自注意力和feed-forward自注意力网络作为学习注册话语内部关系的体系结构。

3、Auxiliary Loss Of Transformer With Residual Connection For End-to-end Speaker Diarization

作者单位：韩国光州科技学院

描述：针对端到端的说话人日志任务，提出了一种residual auxiliary EEND（RX-EEND）的transformer学习结构，以加强下层编码器块的学习，从而提高学习的准确性。

4、Domain Robust Deep Embedding Learning For Speaker Recognition

作者单位：中国科学技术大学语音实验室、新加坡理工大学、科大讯飞

描述：在说话人验证等问题中，训练域和测试域之间存在分布差异.为了解决这一问题，提出了一个多任务端到端框架，从标记源数据集和未标记目标数据集学习说话人embedding。设计了一种基于平滑知识蒸馏(SKD)的自监督学习方法，从未标记的目标域中挖掘潜在的结构信息。文章还设计了领域鲁棒性模块，以提高一个领域的建模能力以及对其他领域的推广能力。

5、Graph Convolutional Network Based Semi-supervised Learning On Multi-speaker Meeting Data

作者单位：厦门大学、阿里巴巴语音实验室、浙江大学

描述：提出了一种基于图卷积神经网络(GCN)的半监督学习方法，以实现说话人聚类。给定一个预先训练的embedding提取器，在标记数据上训练图卷积网络，并用“伪标签”对未标记数据进行聚类，将带有伪标签的聚类结果重新训练embedding提取器，迭代运行聚类训练校正过程。

6、Local Information Modeling With Self-attention For Speaker Verification

作者单位：上海交通大学

描述：在说话人验证等任务中，self attention模块作为transformer的关键组成部分，可以帮助模型充分利用全局信息，但不足以捕捉局部信息。针对这一缺陷，文章从两个不同的方面加强了局部信息建模：将注意力上下文限制为局部和将卷积运算引入transformer。

7、Improving Separation-based Speaker Diarization Via Iterative Model Refinement And Speaker Embedding Based Post-processing

作者单位：中国科学技术大学、科大讯飞、乔治亚理工学院

描述：本文提出了一种基于迭代分离的说话人diarization方法(ISSD)。首先使用基于聚类的说话人日记(CSD)结果作为先验信息来生成自适应数据。然后，对预先训练的模型进行微调，使其适应测试话语。最后，使用自适应模型生成的结果来更新下一次迭代的自适应数据。在后处理部分，说话人滤波可以滤除无关说话人的语音，说话人恢复可以恢复缺失段中的说话人。

8、Incorporating End-to-end Framework Into Target-speaker Voice Activity Detection

作者单位：杜克大学电气与计算机工程系、昆山杜克大学数据科学研究中心

描述：提出了一种用于说话人日志的端到端目标-说话人语音活动检测(E2E-TS-VAD)方法。首先，利用基于Resnet的网络从声学特征中提取帧级说话人embedding，经过L2归一化后被送到transformer编码器，产生说话人日志结果的初始化。随后，基于编码器的输出，帧级说话人embeddings被聚合到几个目标说话人的embedding。最后，基于BiLSTM的TS-VAD模型对改进后的日志结果进行预测。

9、Mfa: Tdnn With Multi-scale Frequency-channel Attention For Text-independent Speaker Verification With Short Utterances

作者单位：新加坡Astar研究所、新加坡国立大学、Fortemedia Singapore、香港中文大学

描述：在说话人验证等问题上，TDNN较为常用。但需要大量的滤波器来捕捉局部频率区域的说话人特性，在短话语场景下，这种系统的性能可能会下降。文章提出了一种多尺度频率通道注意(MFA)模块，通过卷积神经网络和TDNN组成的新的双路径设计来表征不同尺度下的说话人。

10、Multi-channel Speaker Diarization Using Spatial Features For Meetings

作者单位：香港中文大学、腾讯AI Lab

描述：提出了两种多通道的说话人日志系统。第一个系统采用multi-look策略来训练网络，不给出说话人的方向speakers’ direction of arrival((DOA)，而是给出几个固定的视向，覆盖全景图，允许网络自动学习特定的空间信息；另一个系统根据已有的日志结果估计目标说话人的DOA。这两个系统的目标都是估计说话人在不同方向上的语音活动，以处理重叠语音。

11、Multi-scale Speaker Embedding-based Graphattention Networks For Speaker Diarisation

作者单位：韩国Naver Corporation、韩国Advanced Institute of Science and Technology

描述：多尺度的embeddings使用不同长度的片段，且分数是使用加权求和方案组合的，但是权重是固定的，而不能自适应地去分配权重。针对这一问题，（1）提出了多尺度embedding说话人日志的图注意力网络；（2）利用各embedding的规模信息，设计规模指标；（3）利用多尺度embeddings中预先计算的亲和矩阵，改进了基于注意力的聚类算法。

12、Multi-view Self-attention Based Transformer For Speaker Recognition

作者单位：同济大学、南方科技大学、香港理工大学、微软亚洲研究院

描述：对于说话人识别问题，文章提出了一种多视角自注意机制，在该机制中，不同的注意力头可以关注不同的感受野范围，以增强捕捉全局依赖性和对局部进行建模的能力。在此基础上，文章对不同的transformer模型进行了研究，这些模型具有不同的网络结构、embedding位置以及用于说话人识别的池化方法。

13、On The Importance Of Different Frequency Bins For Speaker Verification

作者单位：华南理工大学、上海交通大学

描述：在说话人embedding的学习过程中，也许并不是所有频率范围的信息对系统性能的贡献是相等的。因此，文章提出了频率重加权层(FRL)，它从训练集中自动学习不同频率维度的重要性，并对它们重新加权。

14、Reformulating Speaker Diarization As Community Detection With Emphasis On Topological Structure

作者单位：阿里巴巴语音实验室

描述：文章提出将说话人的聚类重新表述为一个网络社区检测问题。利用Leiden社区检测算法，通过遍历网络，可以了解它的整个结构。当涉及到每个节点的决策时，同时考虑了局部拓扑和全局拓扑。其次，采用一致流形近似进行降维。第三，引入了一种屏蔽滤波方法来提取“干净”的说话人embeddings。最后，将社区检测应用于一个端到端的后处理网络，以获得日志结果。

15、Robust Speaker Verification Using Population-based Data Augmentation

作者单位：香港理工大学

描述：数据增强可用于模拟说话人识别系统可能遇到的不利环境。通常，增强参数是手动设置的。文章提出了一种基于种群的搜索策略来优化增强参数，该方法不是找到一组固定的超参数，而是学习一个用于设置超参数的scheduler。与网格搜索相比，该策略具有相当大的计算优势。

16、Robust Speaker Verification With Joint Self-supervised And Supervised Learning

作者单位：西安三星研发中心、三星高级技术研究所

描述：针对说话人验证任务，提出了自监督联合学习（SS-JL）框架，将监督学习和自监督学习与多任务学习(MTL)相结合。除了说话人验证之外，文章还提出了另外两个模块，即说话人日志和说话人不变。有了这样充分的数据挖掘，模型能够学习到更丰富的说话人特征。

17、Self-supervised Speaker Verification With Simple Siamese Network And Self-supervised Regularization

作者单位：The University of Texas at Dallas, TX, USA、Amazon AWS AI, USA

描述：文章提出了一个有效的自监督学习框架和一个新的正则化策略来进行自监督说话人表征学习。与基于对比学习的自监督学习方法不同，所提出的自监督正则化(SSREG)专门关注正数据对潜在表示之间的相似性。并在简单的siamese网络结构下显著提高了自监督说话人表示学习的性能。

18、Titanet: Neural Model For Speaker Representation With 1D Depth-wise Separable Convolutions And Global Context

作者单位：美国英伟达

描述：文章提出了一种新的神经网络结构TitaNet，用于提取说话人表示。该模型采用一维深度可分卷积和压缩激励(SE)层，以及基于信道关注的统计池层，将可变长度的话语映射到固定长度的嵌入（t-vector）。

19、Towards End-to-end Speaker Diarization With Generalized Neural Speaker Clustering

作者单位：腾讯AI Lab、美国卡内基梅隆大学

描述：文章提出的说话人日志系统，以广义的神经说话人聚类模块为骨干。在训练阶段，设计了一个即时口语对话生成器，为系统提供非语音、重叠语音和主动说话人等类别的音频流和相应的注释。采用分块推理和基于说话人验证的跟踪模块来处理任意数目的说话人。

20、Transcribe-to-diarize: Neural Speaker Diarization For Unlimited Number Of Speakers Using End-to-end Speaker-attributed Asr

作者单位：美国微软

描述:对于说话人日志任务，它以端到端说话人属性自动语音识别(SA-ASR)为骨干，发现通过添加少量可学习参数，基于E2E SA-ASR的解码器网络可以估计每个词的开始和结束时间，从而使模型能够识别“谁在何时和什么时候说话”。通过引入一个基于学习的框架，提高了diarization的准确性。

21、M2MET: The Icassp 2022 Multi-channel Multi-party Meeting Transcription Challenge

作者单位：阿里巴巴语音实验室、Beijing Shell Shell Technology Co., Ltd.

描述：M2MET挑战赛，提出了AliMeeting语料库，包含 120 小时录制的普通话会议数据，包括通过 8 通道麦克风阵列收集的远场数据以及通过耳机麦克风收集的近场数据。对于说话人日志任务，提供的baseline基于ResNet提取说话人embedding，并利用AHC和VBx进行聚类。

22、The USTC-Ximalaya System For The ICASSP 2022 Multi-channel Multi-party Meeting Transcription (M2MET) Challenge

作者单位：中国科学技术大学、喜马拉雅、乔治亚理工学院

描述：在M2MeT，对TS-VAD进行了两项改进。首先，对于训练TS-VAD模型中的数据准备和增强，使用包含真实会议和模拟室内对话的语音数据。其次，在改进基于TS-VAD 的deconding后获得的结果中，执行了一系列后处理步骤来改进VAD结果，如合并短静音间隔片段等，以降低DER。

23、The Cuhk-tencent Speaker Diarization System For The ICASSP 2022 Multi-channel Multi-party Meeting Transcription Challenge

作者单位：香港中文大学、腾讯AI Lab、台湾国立大学

描述：对于M2MeT挑战赛，修改了传统的 TSVAD 系统，将说话人检测层替换为自注意力机制。基于声学特征、空间相关特征和说话人相关特征之间存在有价值的互补信息的假设，提出了一种基于多级特征融合机制的目标说话人语音活动检测（FFM-TS-VAD）系统来改进系统的性能。

24、Cross-channel Attention-based Target Speaker Voice Activity Detection: Experimental Results For The M2met Challenge

作者单位：杜克大学电气与计算机工程系、昆山杜克大学数据科学研究中心

描述：在M2MET挑战赛中，采用基于x-vector的TS-VAD方法来检测说话人之间的重叠。并且分别为对8个通道中的每一个训练一个单通道模型，采用跨通道自注意力来融合不同通道的说话人embedding，其中不同通道之间的非线性空间相关性被学习和融合。

25、Summary On The ICASSP 2022 Multi-channel Multi-party Meeting Transcription Grand Challenge

作者单位：较多

描述：对M2MeT挑战赛的总结，回顾了本次比赛的常见方法，如TS-VAD,DOVER-Lap,DOA等。

26、Asd-transformer: Efficient Active Speaker Detection Using Self And Multimodal Transformers

作者单位：南加州大学、亚马逊、卡内基梅隆大学

描述：对于多模态主动说话人检测任务，文章通过为每个音频和视频embedding增加一个具有多个注意力head的自transformer，再利用两个并发的多模态transformer进行视听同步，并采用双线性池进行模态融合来增强。

27、Self-supervised Speaker Recognition With Loss-gated Learning

作者单位：新加坡国立大学、新加坡Astar、新加坡Fortemedia、香港中文大学

描述：对于说话人识别任务，研究了一种损失门控学习(LGL)策略，通过神经网络在训练过程中的拟合能力来提取可靠的标签，而不是直接使用伪标签。