audio
文章平均质量分 85
hitrjj
这个作者很懒,什么都没留下…
展开
-
【AI视野·今日Sound 声学论文速览 第五十四期】Thu, 7 Mar 2024
这项工作开创了自动估计录音中音乐作品的演奏难度的先河,有两个精确的贡献:第一个基于音频的难度估计数据集,即钢琴教学大纲 PSyllabus 数据集,包含来自 1,233 名作曲家的 11 个难度级别的 7,901 首钢琴曲,以及一个识别框架能够管理直接从音频派生的单模态和多模态方式的不同输入表示,以执行难度估计任务。相反,对合作伙伴的最后一个音符做出反应并尝试与其和谐预测策略对协调的策略会产生最低的非控制收益和最高的标准偏差,这表明根据对合作伙伴玩家的即时反应来选择音符可能会产生不一致的结果。原创 2024-03-08 00:12:55 · 1169 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第五十三期】Wed, 6 Mar 2024
据我们所知,我们的两项比赛都是同类比赛中的首创,并且比赛之间的联系随着时间的推移相互提高参赛作品的质量,这使得这些比赛成为代表更广泛的游戏社区中经常被忽视的细分市场的重要组成部分,VIP。将带后置滤波和不带后置滤波的信号处理方法以及卷积循环神经网络 CRNN 方法与基于 TSE 模型的最先进的说话人识别方法进行比较,我们发现不带后置滤波的信号处理方法在 Word 方面产生了最佳性能低混响的重叠语音信号的错误率,而 CRNN 方法对于混响更加鲁棒。在我们的工作中,我们专注于带有伪标签的半监督 AVSL。原创 2024-03-06 15:40:10 · 466 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第五十二期】Tue, 5 Mar 2024
AI视野·今日CS.Sound 声学论文速览Tue, 5 Mar 2024Totally 18 papers👉上期速览✈更多精彩请移步主页Daily Sound PapersSA-SOT: Speaker-Aware Serialized Output Training for Multi-Talker ASR Authors Zhiyun Fan, Linhao Dong, Jun Zhang, Lu Lu, Zejun Ma多方自动语音识别在会议、对话等涉及多方交互的场景中发挥着原创 2024-03-06 11:10:30 · 481 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第五十一期】Mon, 4 Mar 2024
在本文中,我们提出了 VoxGenesis,一种新颖的无监督语音合成框架,可以在没有监督的情况下发现潜在的说话人流形和有意义的语音编辑方向。我们进行了大量的实验,使用主观和客观指标来评估所提出的 VoxGenesis,发现它比以前的方法产生了更加多样化和现实的、具有独特特征的扬声器。通过并行适配器设计,我们提出的框架将两种类型的适配器插入到预先训练的模型中,从而允许调整中间 Transformer 层中的潜在特征和所有 Transformer 层的输出嵌入。在评估技术中,窄频带具有显着的影响。原创 2024-03-04 20:46:56 · 819 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第五十期】Fri, 1 Mar 2024
与使用原始的以视觉为中心的描述相比,我们获得以音频为中心的描述的方法提供了显着更高的零镜头性能。此外,我们表明,与使用数据集的原始音频类标签相比,使用相同的提示,我们可以成功地利用 LLM 来改进 EpicSounds 上的检索。我们的实验表明,所提出的方法比基线更好地检测构音障碍语音中的不当停顿。我们在 1 个 Filterbank 到 DSU 和 2 个 DSU 到翻译数据上预训练编码器解码器模型,并使用 1 中的编码器和 2 中的解码器来初始化新模型,并在有限的语音翻译数据上对其进行微调。原创 2024-03-04 20:43:38 · 1142 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第四十九期】Wed, 17 Jan 2024
AI视野·今日CS.Sound 声学论文速览Wed, 17 Jan 2024Totally 23 papers👉上期速览✈更多精彩请移步主页Daily Sound PapersFrom Coarse to Fine: Efficient Training for Audio Spectrogram Transformers Authors Jiu Feng, Mehmet Hamza Erol, Joon Son Chung, Arda SenocakTransformer 已成为音原创 2024-02-14 21:02:37 · 1103 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第四十八期】Mon, 15 Jan 2024
本文提出了一种基于生成对抗网络 GAN 的 BWE 模型,具有并行预测幅度和相位谱的能力,称为 AP BWE,它实现了高质量和高效的宽带语音波形生成。然而,对于连续语音中的 KWS,协同发音和流式分词很容易为不同的文本产生相似的音频模式,从而可能引发误报。在 SlideSpeech(一个富含幻灯片的大规模视听语料库)上进行的实验表明,我们提出的 LCB 网络在测试集上的 WER U WER B WER 相对减少量优于一般 ASR 模型 9.4 9.1 10.9,具有较高的无偏和有偏性能。原创 2024-01-31 12:21:19 · 558 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第四十七期】Fri, 12 Jan 2024
受自监督学习最新进展的推动,我们提出了分层对比掩模自编码器 HiCMAE,这是一种新颖的自监督框架,利用对大量未标记的视听数据进行大规模自监督预训练来促进 AVER 的进步。迁移学习 TL 是一种越来越流行的训练深度学习 DL 模型的方法,它利用在多样化的大规模数据集上训练基础模型所获得的知识,用于可用的领域或任务特定数据较少的下游任务。具体来说,我们使用不同的投影仪来学习每个类别的逐帧特征。通过使用所提出的表示,由于对外部辐射的宽松约束,可以显着减少优先方向上的外部辐射,同时保持较高的内部合成精度。原创 2024-01-29 13:40:19 · 985 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第四十六期】Thu, 11 Jan 2024
互联网内容丰富,其中以英语发布的内容多达 60 条,这与全球人口形成鲜明对比,全球人口中只有 18.8 人以英语为母语,只有 5.1 人将英语视为自己的母语,这导致了在线信息获取的差异。不幸的是,由于管道的原因,用翻译后的替代方案替换视频音轨的视频配音自动化过程仍然是一项复杂且具有挑战性的任务,需要精确的计时、面部运动同步和韵律匹配。此外,通过可视化声音事件的特征,我们观察到FFDConv可以有效地提取特定频段的相干特征,与声音事件的声音连续性一致。我们使用反事实实例并将它们包含在我们的模型中的不同方面。原创 2024-01-23 14:10:49 · 925 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第四十五期】Wed, 10 Jan 2024
与大多数依赖字幕形式的真实数据的方法不同,在这项工作中,我们利用视频自然产生的模式,视频帧因为它们包含场景理解所必需的视觉信息,b音频因为它包含与有趣相关的更高级别的线索诸如语调、音高和停顿之类的时刻以及使用语音转文本模型自动提取的 c 文本,因为它在由大型语言模型处理时可以提供丰富的信息。在本文中,我们提出了一种有效的方法,称为零样本情感风格转移 ZEST,它允许将给定源音频中存在的情感内容与目标音频中嵌入的情感内容进行传输,同时保留源中的说话者和语音内容。最后,我们使用三步训练策略来优化我们的模型。原创 2024-01-11 23:31:32 · 921 阅读 · 1 评论 -
【AI视野·今日Sound 声学论文速览 第四十四期】Tue, 9 Jan 2024
AI视野·今日CS.Sound 声学论文速览Tue, 9 Jan 2024Totally 27 papers👉上期速览✈更多精彩请移步主页Daily Sound PapersDJCM: A Deep Joint Cascade Model for Singing Voice Separation and Vocal Pitch Estimation Authors Haojie Wei, Xueke Cao, Wenbo Xu, Tangpeng Dan, Yueguo Chen歌声原创 2024-01-11 23:02:49 · 1099 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第四十三期】Mon, 8 Jan 2024
实验结果表明,我们的系统明显优于之前的 WSTAG SOTA。在解决人工智能音乐智能的可解释性和泛化性的挑战时,本文引入了一种新颖的符号表示,它融合了不同传统和粒度的显性和隐性音乐信息。为了在钢琴音乐形状评估的背景下评估所提出的方法,我们生成了一个新的数据集,其中包含由 147 次钢琴准备练习衍生的 4116 首音乐作品,并以 28 类音乐形状进行演奏。对这些工具的假设和局限性的讨论允许为所有声音演员提出尽可能相关和通用的第一个工具,其主要目标是必须能够聆听分析的每个元素,因为听力是最终参考工具。原创 2024-01-11 22:55:47 · 1025 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第四十二期】Fri, 5 Jan 2024
通过从说话者表示中消除多余的内容信息,我们的否定方案不仅减轻了内容泄漏,从而增强了合成的鲁棒性,而且还提高了说话者的保真度。一项包含选定样本的调查被分发给当地的一个青年管弦乐队,以衡量人们对人工智能和人类生成的音乐的音乐性的看法。在这项工作中,我们介绍了 CLC 对话对比学习,这是一系列以自我监督的方式对模型进行对比微调的方法,利用与助手不成功的对话中容易检测到的伪影。先前的研究提出使用实值波束成形权重,虽然降低了设计的灵活性,但可以提供一系列好处,例如简化的波束成形器实现或高效的波束成形算法。原创 2024-01-07 23:39:28 · 1073 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第四十一期】Thu, 4 Jan 2024
然而,在这样的框架中没有充分考虑语音源信号的稀疏特性。在单个 NVIDIA GTX4090 GPU 上的实验表明,尽管 CoMoSVC 的推理速度明显快于最先进的基于 SOTA 扩散的 SVC 系统,但它仍然根据主观和客观指标实现了相当或更高的转换性能。在这项工作中,我们提出了 Incremental FastPitch,一种新颖的 FastPitch 变体,能够通过使用基于块的 FFT 块改进架构、使用感受野约束块注意掩模进行训练以及使用固定大小的过去模型状态进行推理来增量生成高质量的 Mel 块。原创 2024-01-07 23:31:36 · 884 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第四十期】Wed, 3 Jan 2024
从最先进的文本到图像 T2I 扩散模型中汲取灵感,我们引入了 Auffusion,这是一个 TTA 系统,通过有效利用其固有的生成优势和精确的跨模态对齐,将 T2I 模型框架适应 TTA 任务。我们的检测方法的性能使用三个数据集进行检查,其中包括来自地中海七个月的记录,其中包含手动验证的环境噪声,以及从多米尼加岛收集的几天的手动标记数据,其中包含来自多条抹香鲸的约 40,000 次点击,以及来自巴哈马的数据集,其中包含来自单个抹香鲸的 1,203 个标记点击。·今日CS.Sound 声学论文速览。原创 2024-01-07 23:04:23 · 953 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第三十九期】Tue, 2 Jan 2024
在 UASpeech 语料库上进行的实验表明,基于 GAN 的数据增强始终优于微调的 Wav2vec2.0 和 HuBERT 模型,在不同的数据扩展操作点上不使用数据增强和速度扰动,字错误率 WER 降低了统计显着性,分别达到 2.01 和 0.96 绝对值 9.03 和4.63 相对于 16 个构音障碍说话者的 UASpeech 测试集。然而,专业的人类表演者可以并且确实以不同的方式解释音乐,从而提供不同的可能参考,并且定量的接近度不一定与感知相似性一致,这引发了人们对这种评估方法有效性的担忧。原创 2024-01-05 23:35:13 · 972 阅读 · 2 评论 -
【AI视野·今日Sound 声学论文速览 第三十八期】Mon, 1 Jan 2024
它概述了个性化语音合成的挑战和进步,强调了情感表达、口音和方言变化的重要性,并捕捉了个人语音特征。虽然开发准确、高效的 AQA 模型一直受到人们的关注,但为手头的特定任务创建高质量、多样化和广泛的数据集并没有引起足够的关注。此外,与使用人类注释的 AQA 数据训练的模型相比,在我们的数据集上训练的模型表现出增强的通用性。情感语音转换旨在根据给定的情感操纵语音,同时保留非情感成分。在这项工作中,我们提出了可学习损失混合 LLM,这是一种简单且轻松的训练图,以提高基于深度学习的语音增强模型的泛化能力。原创 2024-01-05 23:28:25 · 883 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第三十七期】Tue, 31 Oct 2023
我们将预训练模型中发现的偏差与适应语音情绪识别 SER 任务的下游模型中的偏差进行比较,发现在执行的 69 项 96 项测试中的 66 项中,与 SpEAT 所示的正效价更相关的组也倾向于被下游模型预测为具有更高的化合价。我们的工作提供的证据表明,与基于文本和图像的模型一样,基于预先训练的语音的模型经常学习类似人类的偏见。作为用声音和数据集讲故事的基准任务,我们提出了模态之间的检索任务,以及图像文本序列的音频生成任务,为它们引入了强大的基线。我们的模型能够学习多域特征,以互补的方式减少不同域上的现有噪声。原创 2024-01-05 23:13:50 · 808 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第三十五期】Fri, 27 Oct 2023
实验表明,我们的方法通过低资源半监督学习实现了高质量的音乐生成,与原始模型相比,调整参数少于 4 个,并且在少于 300 首歌曲的小数据集上进行训练。此外,我们的方法可以实现基于内容的有效控制,并且我们通过和弦和节奏(音乐音频的两个最显着的特征)来说明控制能力。此外,我们还表明,通过结合基于内容的控件和文本描述,我们的系统实现了灵活的音乐变化生成和风格转换。在本文中,我们提出了一种方法来生成无法链接到真人的人工说话者嵌入,同时提供对嵌入的语音和说话风格的直观和细粒度的控制,而不需要任何说话者或风格的标签。原创 2023-11-16 21:30:25 · 114 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第三十四期】Thu, 26 Oct 2023
在我们将 ArTST 与 SpeechT5 进行比较的实验中,以及与之前报告的这些任务的结果相比,ArTST 在所有三项任务中的表现均达到或超过了当前最先进的水平。还测试了基于卷积层的更通用模型。在这项工作中,我们向这个方向迈出了一步,展示了单个预训练的生成模型可以适应不同的下游任务,并具有强大的性能。实验结果表明,预训练的生成模型可以使用特定于任务的数据进行微调,以匹配或超越现有的语音增强、分离和合成专家模型。然而,由于该行业、机械和环境条件的特殊性,监督和维护的预测和纠正是该行业很少探讨的挑战。原创 2023-11-16 21:02:41 · 213 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第三十三期】Wed, 25 Oct 2023
我们的研究结果表明,通过广泛的数据驱动模型训练,微调有限数量的特定个体数据在依赖于说话者的构音障碍语音识别中产生了值得称赞的结果。最先进的 DDSD 系统使用语言提示,例如声学、文本和/或自动语音识别系统 ASR 功能,将语音分类为设备定向或其他,并且通常必须应对这些模式中的一种或多种在实际部署时不可用的情况世界设定。我们提出了不同的方法,将韵律的分数和嵌入与相应的语言线索相结合,发现韵律通过非线性中间融合在给定的固定操作点上将错误接受率 FA 的 DDSD 性能提高了高达 8.5,而我们使用模态。原创 2023-11-16 20:09:36 · 153 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第三十二期】Tue, 24 Oct 2023
AI视野·今日CS.Sound 声学论文速览Tue, 24 Oct 2023Totally 20 papers👉上期速览✈更多精彩请移步主页Interesting:📚nvas3d, 基于任意录音和室内3D信息合成重建不同听角(位置)处的新的声音。(from apple cmu)website: https://github.com/apple/ml-nvas3dDaily Sound PapersNovel-View Acoustic Synthesis from 3D R原创 2023-11-01 21:58:15 · 331 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第三十一期】Mon, 23 Oct 2023
我们之前的研究发现,完全对齐源域和目标域之间的分布可能会引入负迁移,其中在分布对齐期间,源域中的类或不相关类映射到目标域中的不同类。SALMONN 使法学硕士能够直接处理和理解一般音频输入,并在训练中使用的许多语音和音频任务上取得有竞争力的表现,例如自动语音识别和翻译、基于听觉信息的问答、情感识别、说话者验证和音乐SALMONN 还具有训练中未曾见过的各种新兴能力,包括但不限于将语音翻译为未经训练的语言、基于语音的槽位填充、基于口语查询的问答、基于音频的讲故事和语音音频协同推理textit等。原创 2023-10-30 22:50:42 · 166 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第三十期】Fri, 20 Oct 2023
这项研究探索了深度学习技术在语音情感识别中的集成,为与说话人分类和情感识别相关的挑战提供了全面的解决方案。它引入了一个框架,该框架结合了现有的说话人二值化管道和基于卷积神经网络 CNN 构建的情绪识别模型,以实现更高的精度。所提出的模型使用来自五个语音情感数据集的数据进行训练,即 RAVDESS、CREMA D、SAVEE、TESS 和 Movie Clips,其中后者是专门为本研究创建的语音情感数据集。本文通过另一个称为基于能量的模型 EBM 的成员扩展了可用的非 AR 模型的范围。原创 2023-10-24 17:42:52 · 119 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第二十九期】Thu, 19 Oct 2023
传统的基于声音的技术依赖于估计与几何相关的房间参数,例如墙壁位置和房间大小,从而限制了可推断的房间几何形状的多样性。具体来说,我们加速随机生成的话语,以创建声音和文本信息之间的映射,而这很难从典型的训练示例中学习。通过MTL,可以提取共同特征,从而加速给定任务的学习过程,减少对参考样本的需求,从而增强少样本学习的泛化能力。ResoNet是本研究提出的分析模型,除了传统的PINN损失函数之外,还最小化了周期解的损失函数,从而有效地利用神经网络的函数逼近能力,同时进行共振分析。在此,分析一维声管中的共振。原创 2023-10-24 15:46:45 · 107 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第二十八期】Wed, 18 Oct 2023
为了解决这两种方法的局限性,在这项工作中,我们引入了一种利用基于信号处理的降噪器的方法,该降噪器与神经网络控制器结合使用时,可以对语音和音乐信号实现全自动、高保真度的降噪。然而,声学模型的选择多种多样。具体来说,我们凭经验表明 1 使用从一组转录数据导出的误差分布生成的合成数据优于应用随机扰动的常见方法 2 对 BPE 分词器的词汇应用特定于语言的调整在适应看不见的分布和保留转录错误的知识。它采用两种模型,一种是用于实时处理音频流的轻量级设备模型,另一种是服务器端的验证模型,它是细化检测的异构架构的集合。原创 2023-10-24 15:32:54 · 93 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第二十七期】Tue, 17 Oct 2023
在这种训练方法中,合成模型的当前状态用于生成话语的语音转换变体,这些变体作为重建任务的输入,确保模型的连续和有目的的细化。统一的 SALM 不仅实现了与自动语音识别 ASR 和语音翻译 AST 的特定任务 Conformer 基线相当的性能,而且还展示了上下文学习能力中的零样本,这通过 ASR 和 AST 的关键字提升任务得到了证明。在这项工作中,我们初步尝试通过研究音频潜在扩散模型的音频输出与训练数据的比较来理解音频潜在扩散模型的内部工作原理,类似于医生通过聆听患者器官的声音来听诊患者的方式。原创 2023-10-18 21:55:33 · 184 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第二十六期】Mon, 16 Oct 2023
采用机器ID来约束基于Transformer的自动编码器TransAE的潜在空间,通过引入简单的ID分类器来学习相同机器类型的分布差异,并增强模型区分异常声音的能力。具体来说,我们提出了一种用于语音增强的条件生成框架,该框架通过神经语音编解码器的声学代码对干净的语音进行建模,并以自回归的方式生成以过去的噪声帧为条件的语音代码。通过采用传统的目标说话者语音活动检测进行实时操作,该框架可以使用自生成的嵌入来识别说话者活动,从而在推理阶段获得一致的性能,而不会出现排列不一致的情况。原创 2023-10-18 19:20:36 · 1063 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第二十五期】Fri, 13 Oct 2023
我们为基于音频的病理检测模型开发了一种新的训练方法,并在从 3 大洲的 5 家不同地理位置的医院获取的新生儿哭声大型数据库上评估该系统。我们的系统提取可解释的声学生物标志物,支持临床决策,并能够准确检测新生儿哭声引起的神经损伤,AUC 灵敏度为 92.5 88.7,特异性为 80。WER 估计是一项旨在在给定语音和转录的情况下预测 ASR 系统的 WER 的任务。但是,当模型输入非标准数据(例如来自有语言障碍的用户的语音)时会发生什么我们研究了最近的语音转换模型在非标准下游语音转换任务上的执行情况。原创 2023-10-14 11:09:38 · 195 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第二十四期】Thu, 12 Oct 2023
在推理过程中,我们选择最可能的路径并将该路径上的隐藏状态作为声学解码器的输入。在对音乐理解、字幕和推理三类任务的评估中,我们表明我们的模型在音乐理解的零样本泛化方面匹配或优于现有基线,并且人类在字幕和推理方面与模型的响应表现出高度一致。在这项工作中,我们研究了在基于音素的神经传感器的序列判别训练中使用的具有不同上下文长度和标签单元音素与单词的语言模型 LM 的效果。通过对配对图像和语音字幕进行训练,AV NSL 展现出推断有意义的短语结构的能力,这些结构与自然监督的文本解析器导出的英语和德语短语结构相当。原创 2023-10-14 10:22:30 · 153 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第二十三期】Wed, 11 Oct 2023
常用的拓扑签名是持久图或其变换。目前的研究讨论了利用拓扑特征的多种方法的后果,更不用说过滤的选择,但据我们所知,信号表示的选择尚未成为任何研究的主题。我们提出了一种基于注意力的模型,即组件注意力网络 CANet,用于三个级别的多模态融合:1 与 CANet 的特征融合,2 与 CANet 和图卷积网络 GCN 的模型融合,3 与投票策略的后期融合。在这项工作中,我们提出了一种统一的方法,该方法集成了多语言预训练的语音和文本模型,并以生成方式对四种语言的六个数据集执行 E2E SLU,包括词汇填充词的预测。原创 2023-10-12 23:36:35 · 128 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第二十二期】Tue, 10 Oct 2023
神经信号语音合成模型原创 2023-10-11 11:21:45 · 269 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第二十一期】Mon, 9 Oct 2023
虽然已经开发了几种用于语音合成检测的深度学习模型,但大多数模型的通用性很差,特别是当攻击具有与所看到的统计分布不同的统计分布时。实验结果表明,我们的方法在大多数任务中实现了与基线相当或更好的性能,包括自动语音识别和八个 SUPERB 任务中的五个。本文进行了首次研究,揭示了现实生活中的声学场景与最相关的 AE 的语义嵌入之间的关系。在现实生活中的 ASC 数据集上进行的实验表明,所提出的 ERGL 通过仅学习有限数量的 AE 的嵌入,在 ASC 上实现了有竞争力的性能。原创 2023-10-11 10:23:29 · 236 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第二十期】Fri, 6 Oct 2023
在之前的工作中,这个想法已经以音乐概率模型的形式得以实施,该模型允许精确计算歌曲或逐个音符的概率,以先前的音乐或文化经验的训练集为条件。在这项工作中,我们表明,预先训练的扩散模型确实产生了音乐惊喜值,该值与测量的受试者喜好评分呈现负二次关系,并且这种关系的质量与 IDyOM 等最先进的方法具有竞争力。在这项工作中,基于传感器阵列的方向性测量,提出了一种计算高效的 DPD 测试替代方案,它既不需要频率平滑,也不需要矩阵分解,并且已经针对球形麦克风阵列的声场方向性进行了重新表述。原创 2023-10-06 21:14:53 · 202 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第十九期】Thu, 5 Oct 2023
更具体地说,受 ResNet 和最近的 LoRA 工作的启发,我们提出了一种名为 ResidualTransformer 的方法,其中 Transformer 层中的每个权重矩阵包含 1 个与其相邻层共享的全秩分量,以及 2 个自身独特的低秩分量。与受控的实验室环境相比,现实生活中的对话是在不受控制的条件下进行的,并且受到影响情绪表达的情境因素的影响。情绪是一个连续体,但当前的模型将情绪视为有限值的离散变量。在我们的方法中,片段之间的转换有明确的、可学习的概率,而不是隐式编码持续时间统计数据的空白标签。原创 2023-10-06 20:57:53 · 157 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第十八期】Wed, 4 Oct 2023
鉴于此,我们设计了一种音素对比序数 PCO 损失,用于训练基于 APA 模型的回归,其目的是在考虑回归目标输出的序数关系的同时,保留音素类别之间更好的音素区别。在我们最近的工作中,我们引入了 BS RoFormer 模型,该模型继承了前端 BSRNN 中频带分割方案的思想,然后使用具有旋转位置嵌入 RoPE 的分层 Transformer 对多频带掩模的内带和带间序列进行建模估计。合同中,BSRNN 和 BS RoFormer 中的频带分割映射是不重叠的,并且是基于启发式设计的。原创 2023-10-04 15:28:16 · 226 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第十七期】Tue, 3 Oct 2023
我们的主要假设是,通过在合成语音上训练 ASR 模型,真实语音的 WER 反映了分布之间的相似性,这是对超出可理解性的合成语音质量的更广泛的评估。这种适应不仅使 SLM 在语音识别 ASR 和语音翻译 AST 等传统任务上取得了强大的性能,而且还引入了零样本指令跟踪的新颖功能,可以在给定语音输入和文本指令的情况下执行更多样化的任务,SLM 能够执行看不见的生成任务,包括使用实时上下文的上下文偏置 ASR、对话生成、语音延续和问题回答等。所提出的去噪方法的性能已在合成的噪声 PCG 数据集上进行了评估。原创 2023-10-03 20:58:20 · 258 阅读 · 1 评论 -
【AI视野·今日Sound 声学论文速览 第十六期】Mon, 2 Oct 2023
此外,我们提出了一种新颖的数据增强方法,该方法使用 ChatGPT 来生成字幕混合,即两个字幕的语法和紧凑组合,与相应的音频混合一起,不仅增加了训练数据的数量,还增加了训练数据的复杂性和多样性。此外,我们引入了一种独特的基于注意力的融合技术,用于音频和视觉信息的有效集成,以及一种新的掩模分离方法,该方法利用声学特征的固有频谱性质来实现更清晰的分离。在这项工作中,我们提出了一种用于音频制作风格匹配的深度学习方法,该方法可与在一些最广泛使用的框架中实现的效果一起使用,仅要求所考虑的参数具有连续域。原创 2023-10-02 17:28:16 · 498 阅读 · 1 评论 -
【AI视野·今日Sound 声学论文速览 第十五期】Fri, 29 Sep 2023
最近,人们对面孔和声音的探索激增,因为与仅依赖单一语音信号模态相比,它们可以提供更多补充和更全面的信息。尽管目前文献中有关面部和声音融合的方法已经显示出比个人面部或语音模态的方法有所改进,但视听融合在说话人验证方面的潜力尚未得到充分开发。具体来说,我们根据联合特征表示和个体特征表示之间的相关性来估计交叉注意力权重,以便有效地捕获面部和声音之间的模内以及模间关系。我们已经证明,有效利用模内和模间关系可以显着提高用于说话人验证的视听融合的性能。·今日CS.Sound 声学论文速览。原创 2023-09-29 20:13:33 · 184 阅读 · 0 评论 -
【AI视野·今日Sound 声学论文速览 第十四期】Thu, 28 Sep 2023
为代码转换 CS 设计有效的自动语音识别 ASR 系统通常取决于转录 CS 资源的可用性。为了解决数据稀缺的问题,本文引入了语音拼贴(Speech Collage),这是一种通过拼接音频片段从单语言语料库合成 CS 数据的方法。我们使用重叠添加方法进一步提高了音频生成的平滑质量。我们研究了在域 CS 文本和合成 CS 文本的零样本方法的两种场景中生成的数据对语音识别的影响。实证结果表明,域内和零样本场景的混合错误率和字错误率分别相对降低了 34.4 和 16.2。·今日CS.Sound 声学论文速览。原创 2023-09-28 13:27:00 · 147 阅读 · 0 评论