【AI视野·今日Sound 声学论文速览第五十三期】Wed, 6 Mar 2024

本文链接：https://blog.csdn.net/u014636245/article/details/136508203

本周论文涵盖了AI驱动的音频自适应背景音乐提升游戏体验、深度强化学习在视听源定位中的应用、零样本语音合成技术、半监督学习方法改进、以及无障碍游戏比赛的最新进展。研究还涉及音频播放速度优化和机器人语音过滤技术的创新。

摘要由CSDN通过智能技术生成

AI视野·今日CS.Sound 声学论文速览
Wed, 6 Mar 2024
Totally 8 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Fighting Game Adaptive Background Music for Improved Gameplay
Authors Ibrahim Khan, Thai Van Nguyen, Chollakorn Nimpattanavong, Ruck Thawonmas
本文介绍了我们通过添加自适应功能来增强 DareFightingICE 中背景音乐 BGM 的工作。自适应 BGM 由三种不同类别的乐器组成，播放 2022 年 DareFightingICE 竞赛获胜者声音设计的 BGM。 BGM 通过改变每类乐器的音量来进行调整。每个类别都与游戏的不同元素相关。然后，我们使用仅使用音频作为输入 Blind DL AI 的深度强化学习 AI 代理进行实验来评估自适应 BGM。

Dual Mean-Teacher: An Unbiased Semi-Supervised Framework for Audio-Visual Source Localization
Authors Yuxin Guo, Shijie Ma, Hu Su, Zhiqing Wang, Yuhao Zhao, Wei Zou, Siyang Sun, Yun Zheng
视听源定位 AVSL 旨在根据配对的音频剪辑在视频帧内定位发声对象。现有方法主要依赖于视听对应的自监督对比学习。如果没有任何边界框注释，它们很难实现精确定位，尤其是对于小物体，并且会遭受边界模糊和误报的困扰。此外，朴素的半监督方法无法充分利用大量未标记数据的信息。在本文中，我们提出了一种新颖的 AVSL 半监督学习框架，即 Dual Mean Teacher DMT，包含两个师生结构来规避确认偏差问题。具体来说，两名教师在有限的标记数据上进行了预先训练，通过他们的预测之间的共识来过滤掉噪声样本，然后通过交叉他们的置信图来生成高质量的伪标签。对标记和未标记数据的充分利用以及所提出的无偏框架使 DMT 能够大幅优于当前最先进的方法，在 Flickr SoundNet 和 VGG Sound Source 上的 CIoU 分别为 90.4 和 48.8，分别为 8.9、9.6 和 4.6， 6.4 分别对自监督方法和半监督方法进行了改进，仅给出了 3 个位置注释。

NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models
Authors Zeqian Ju, Yuancheng Wang, Kai Shen, Xu Tan, Detai Xin, Dongchao Yang, Yanqing Liu, Yichong Leng, Kaitao Song, Siliang Tang, Zhizheng Wu, Tao Qin, Xiang Yang Li, Wei Ye, Shikun Zhang, Jiang Bian, Lei He, Jinyu Li, Sheng Zhao
虽然最近的大规模文本到语音 TTS 模型取得了重大进展，但它们在语音质量、相似性和韵律方面仍然存在不足。考虑到语音错综复杂地包含各种属性，例如内容、韵律、音色和声学细节，这对生成提出了重大挑战，一个自然的想法是将语音分解为代表不同属性的各个子空间并单独生成它们。受此启发，我们提出了 NaturalSpeech 3，这是一个 TTS 系统，具有新颖的分解扩散模型，可以以零样本的方式生成自然语音。具体来说， 1 我们设计了一个具有因子向量量化 FVQ 的神经编解码器，将语音波形分解为内容、韵律、音色和声学细节的子空间 2 我们提出了一个因子扩散模型，根据相应的提示在每个子空间中生成属性。通过这种分解设计，NaturalSpeech 3 可以通过分而治之的方式有效且高效地对具有解开子空间的复杂语音进行建模。实验表明，NaturalSpeech 3 在质量、相似性、韵律和清晰度方面优于最先进的 TTS 系统。

Cross Pseudo-Labeling for Semi-Supervised Audio-Visual Source Localization
Authors Yuxin Guo, Shijie Ma, Yuhao Zhao, Hu Su, Wei Zou
视听源定位 AVSL 是根据给定的音频提示识别场景中特定发声对象的任务。在我们的工作中，我们专注于带有伪标签的半监督 AVSL。为了解决普通硬伪标签的问题，包括偏差积累、噪声敏感性和不稳定性，我们提出了一种名为 Cross Pseudo Labeling XPL 的新方法，其中两个模型通过交叉细化机制相互学习，以避免偏差积累。我们为 XPL 配备了两个有效的组件。首先，带有锐化的软伪标签和伪标签指数移动平均机制使模型能够实现逐步的自我改进并确保稳定的训练。其次，课程数据选择模块在训练过程中自适应地选择高质量的伪标签，以减轻潜在的偏差。

AIx Speed: Playback Speed Optimization Using Listening Comprehension of Speech Recognition Models
Authors Kazuki Kawamura, Jun Rekimoto
由于人类收听音频和观看视频的速度比实际观察到的速度更快，因此我们经常以更高的播放速度收听或观看这些内容，以提高内容理解的时间效率。为了进一步利用这种功能，已经开发了根据用户状况和内容类型自动调整播放速度的系统，以帮助更有效地理解时间序列内容。然而，这些系统仍然有空间进一步扩展人类的速度聆听能力，通过生成具有针对更精细的时间单位优化的播放速度的语音并将其提供给人类。在这项研究中，我们确定人类是否可以听到优化后的语音，并提出了一种系统，该系统可以以小至音素的单位自动调整播放速度，同时确保语音清晰度。该系统使用语音识别器分数作为人类听到特定语音单元的程度的代理，并将语音播放速度最大化到人类可以听到的程度。这种方法可用于产生快速但易懂的语音。

Single-Channel Robot Ego-Speech Filtering during Human-Robot Interaction
Authors Yue Li, Koen V Hindriks, Florian Kunneman
在本文中，我们研究了当人类语音与社交机器人 Pepper 的声音和风扇噪音重叠时，人类语音的自动过滤效果如何。我们的最终目标是实现 HRI 场景，在机器人说话时麦克风可以保持打开状态，从而实现更自然的轮流方案，人类可以打断机器人。为了做出适当的反应，机器人需要理解对话者在语音重叠部分所说的内容，这可以通过目标语音提取 TSE 来完成。为了研究 TSE 在流行的社交机器人 Pepper 的背景下如何完成，我们着手创建一个数据集，该数据集由 Pepper 本身录制的语音、靠近麦克风的风扇噪音以及人类语音组成，如下所示：由 Pepper 麦克风在低混响和高混响的房间内录制。将带后置滤波和不带后置滤波的信号处理方法以及卷积循环神经网络 CRNN 方法与基于 TSE 模型的最先进的说话人识别方法进行比较，我们发现不带后置滤波的信号处理方法在 Word 方面产生了最佳性能低混响的重叠语音信号的错误率，而 CRNN 方法对于混响更加鲁棒。

Enhanced DareFightingICE Competitions: Sound Design and AI Competitions
Authors Ibrahim Khan, Chollakorn Nimpattanavong, Thai Van Nguyen, Kantinan Plupattanakit, Ruck Thawonmas
本文介绍了一个新的和改进的 DareFightingICE 平台，这是一个在 Unity 游戏引擎中专注于视障玩家 VIP 的格斗游戏平台。它还将在 2024 年 IEEE 游戏 CoG 大会上将 DareFightingICE 竞赛分为两个独立的竞赛，分别为 DareFightingICE 声音设计竞赛和 DareFightingICE AI 竞赛，其中将使用新平台。这个新平台是旧 DareFightingICE 平台的增强版，拥有更好的音频系统来传达 3D 声音，以及更好的方式将音频数据发送给 AI 代理。通过这一增强功能并利用 Unity，新的 DareFightingICE 平台在为 VIP 和未来音频研究添加新功能方面变得更容易使用。本文还改进了声音设计大赛中声音设计的评价方法，以确保该比赛在未来的 CoG 中继续举办，为 VIP 提供更好的声音设计。据我们所知，我们的两项比赛都是同类比赛中的首创，并且比赛之间的联系随着时间的推移相互提高参赛作品的质量，这使得这些比赛成为代表更广泛的游戏社区中经常被忽视的细分市场的重要组成部分，VIP

NeuroVoz: a Castillian Spanish corpus of parkinsonian speech
Authors Jana na Mendes Laureano, Jorge A. G mez Garc a, Alejandro Guerrero L pez, Elisa Luque Buzo, Juli n D. Arias Londo o, Francisco J. Grandas P rez, Juan I. Godino Llorente

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com