NeuralMultiling 神经网络架构：智能手机上的多语言说话人识别

robinfang2019

于 2024-08-10 09:12:58 发布

阅读量903

点赞数 21

文章标签：神经网络智能手机人工智能机器学习深度学习 dnn 架构

本文链接：https://blog.csdn.net/robinfang2019/article/details/141085846

版权

关键词：生物识别、多语言说话人验证、神经架构搜索、移动设备、轻量级模型

多语言说话人验证技术是生物识别安全验证领域的一个重要分支，广泛应用于门锁、安全设备、家庭自动化、物联网、智能扬声器、游戏机、边境控制、智能手机解锁、银行和金融交易等多种应用场景。随着智能手机的普及和功能的发展，基于生物识别技术的智能手机安全验证已成为可能，尤其是在金融应用中。智能手机的生物识别验证可以通过生理和行为特征来实现，常见的生物特征包括面部、虹膜或眼睛、指纹和声音。每种生物特征在可用性、准确性和用户体验方面都有其优势和劣势。

基于声音的生物识别验证在各种智能手机应用中得到了广泛应用，包括银行业务。使用声音生物特征的主要优点是准确性、可扩展性和易用性。传统的语音识别系统通常只支持一种语言，限制了其可扩展性和用户体验。由于用户可能说多种语言，因此需要开发多语言语音识别系统，允许用户使用不同语言进行注册和验证。不同语言具有不同的语音特征，例如音素序列和频谱特性，这给可靠的多语言识别带来了挑战。

三个不同的波形图：英语、印地语、孟加拉语

针对智能手机环境对轻量级模型的需求，本文提出了一种基于神经网络架构搜索 (NAS) 的多语言语音识别方法，旨在找到最优的 CNN 架构，并通过不同的架构来更好地量化说话人特征。

1 概述

多语言说话人验证技术旨在识别使用多种语言说话的说话人身份，这在智能设备（如智能手机）中具有重要意义。早期的研究主要集中在使用 i-vector 或 x-vector 从语音中提取特征，并利用 Bi-LSTMs 进行说话人区分。然而，这些方法无法充分利用深度学习模型的优势，并且难以在移动设备上部署轻量级模型。

1.1 特征提取和建模

i-vector/x-vector: 早期研究使用 i-vector 或 x-vector 从语音中提取特征，并进行说话人区分。这些方法在跨语言说话人验证中表现良好，但难以在移动设备上部署轻量级模型。
深度神经网络 (DNN): 一些研究探索使用 DNN 直接对语音信号进行建模，并进行说话人区分。这些方法通常需要大量训练数据，并且难以捕捉不同语言的复杂特征。
卷积神经网络 (CNN): CNN 在图像识别领域取得了巨大成功，近年来也被应用于说话人验证。CNN 可以有效地捕捉语音信号的时频特征，并在多语言说话人验证中取得了优异的性能。
Transformer: Transformer 模型在自然语言处理领域取得了突破性进展，也被应用于说话人验证。Transformer 模型可以有效地捕捉语音信号的长期依赖关系，并在多语言说话人验证中表现出色。

1.2 跨语言说话人验证

数据增强: 数据增强技术可以增加训练数据的多样性，从而提高跨语言说话人验证的性能。常用的数据增强技术包括语音转换、噪声添加等。
跨语言特征对齐: 跨语言特征对齐技术可以将不同语言的特征进行对齐，从而提高跨语言说话人验证的性能。常用的跨语言特征对齐技术包括特征空间映射、对抗训练等。
多任务学习: 多任务学习技术可以同时学习多个相关任务，从而提高跨语言说话人验证的性能。例如，可以同时学习说话人识别和语言识别任务。

1.3 轻量级模型

网络剪枝: 网络剪枝技术可以去除神经网络中冗余的神经元或连接，从而减小模型大小和计算量。
量化: 量化技术可以将神经网络的参数从浮点数转换为整数，从而减小模型大小和计算量。
知识蒸馏: 知识蒸馏技术可以将大型模型的知识迁移到小型模型中，从而提高小型模型的性能。

2 方法

神经架构搜索的详细视图和过程

NeuralMultiling 是一种基于神经网络架构搜索 (NAS) 的多语言说话人验证方法，旨在为智能手机等移动设备提供轻量级且性能优异的模型。

2.1 神经网络架构搜索

NeuralMultiling 使用 NAS 技术自动搜索最佳 CNN 架构，无需手动设计网络结构。NAS 技术可以有效地探索网络结构的空间，并找到最适合特定任务的模型。

2.2 正常单元和缩减单元的不同架构

NeuralMultiling 引入了一种新颖的架构设计，将正常单元和缩减单元的架构进行区分。这种设计可以更好地捕捉说话人特征，并提高模型的性能。

2.3 搜索空间和候选操作

NeuralMultiling 的搜索空间由节点和候选操作组成。候选操作包括卷积、池化、跳跃连接等，这些操作可以组合成不同的神经网络单元。

2.4 连续松弛和双层优化

NeuralMultiling 使用连续松弛技术将候选操作转换为连续变量，并使用双层优化方法同时优化网络权重和架构参数。

2.5 模型训练和评估

NeuralMultiling 使用 MAVS 数据集进行训练和评估。MAVS 数据集包含 37,800 个语音样本，涵盖了英语、印地语和孟加拉语三种语言。实验结果表明，NeuralMultiling 在多语言说话人验证任务中取得了优异的性能，并且模型参数数量较少，适合在移动设备上部署。

3 实验

3.1 语言无关实验

在语言无关实验中，NeuralMultiling 使用 MAVS 数据集中的 32,250 个语音样本进行训练，并在 5,560 个语音样本上进行测试。测试样本来自所有设备，并进行跨语言测试。

实验结果表明，NeuralMultiling 在三种语言中都取得了优异的性能，并且模型参数数量较少，优于现有的 Autospeech 方法。

3.2 设备和语言互操作性实验

在设备和语言互操作性实验中，NeuralMultiling 分别在不同的设备上进行训练和测试，并测试了三种语言之间的互操作性。

实验结果表明，NeuralMultiling 在同语言同设备的情况下取得了最佳性能，在跨语言同设备的情况下也表现良好，但在跨设备跨语言的情况下，性能略有下降。

3.3 实验结果分析

语言无关实验: 实验结果表明，NeuralMultiling 在语言无关实验中取得了优异的性能，优于现有的 Autospeech 方法。这表明 NeuralMultiling 可以有效地捕捉不同语言的说话人特征，并进行准确的说话人区分。
设备和语言互操作性实验: 实验结果表明，NeuralMultiling 在同语言同设备的情况下取得了最佳性能，这表明模型可以有效地适应不同的设备和语言环境。在跨语言同设备的情况下，性能略有下降，这可能是由于不同语言的语音特征存在差异。在跨设备跨语言的情况下，性能进一步下降，这可能是由于不同设备的麦克风和扬声器存在差异，以及不同语言的语音特征存在差异。

robinfang2019

关注

21
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
NeuralMultiling 神经网络架构：智能手机上的多语言说话人识别

针对智能手机环境对轻量级模型的需求，本文提出了一种基于神经网络架构搜索 (NAS) 的多语言语音识别方法，旨在找到最优的 CNN 架构，并通过不同的架构来更好地量化说话人特征。
复制链接

扫一扫