read5
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
36、《MnTTS2:开源多说话人蒙古语文本转语音合成数据集》
本文介绍了MnTTS2,一个开源的多说话人蒙古语文本转语音合成数据集。该数据集通过高质量的文本收集、预处理和音频录制,构建了约30小时的语音数据,涵盖三位蒙古族母语播音员的录音。文章详细描述了数据集的构建流程、语料库结构,并基于FastSpeech2和HiFi-GAN模型进行了语音合成实验,验证了数据集的有效性。MnTTS2为低资源语言的TTS研究提供了重要资源,推动蒙古语语音合成技术的发展,并为教育、信息传播和智能设备等实际应用提供支持。原创 2025-09-15 10:57:02 · 163 阅读 · 0 评论 -
35、富有表现力的普通话 TTS 自动重音标注与预测
本文提出了一种基于规则的自动音节级重音标注机制,并结合ALBERT模型实现了文本级重音预测,用于增强普通话TTS系统的韵律表现力。通过大规模语料库分析,考虑音高、时长及上下文信息,构建了高效的重音检测与预测框架,并在声学模型中成功建模重音特征。实验结果表明,该方法显著提升了语音合成的自然度和语义准确性。原创 2025-09-14 16:17:11 · 252 阅读 · 0 评论 -
34、对话状态跟踪的对偶学习方法
本文提出了一种用于多领域对话状态跟踪任务的对偶学习方法。通过将对话状态跟踪的对偶任务简化为用户话语模拟任务,并结合状态重建和话语重建两个训练循环,该方法能够有效利用未标记数据提升跟踪器性能。模型采用结构化对话状态表示和双编码-解码框架,结合预训练语言模型作为外部知识反馈,形成奖励机制,通过策略梯度损失更新模型参数。实验结果表明,该方法在MultiWOZ 2.1数据集上取得了优异的联合目标准确率,同时具备较低的推理复杂度和良好的泛化能力。未来可通过结合预训练模型和多模态信息进一步提升性能,并拓展至更多实际应用原创 2025-09-13 14:37:08 · 62 阅读 · 0 评论 -
33、在线对话状态跟踪的深度强化学习与对偶学习方法
本文探讨了深度强化学习与对偶学习在任务导向多轮对话系统中的关键应用,重点解决对话状态跟踪(DST)所面临的数据标注成本高和奖励稀疏等问题。通过同伴教学框架,深度强化学习在DSTC2和DSTC3实验中表现出高效的收敛能力和对话性能提升,尤其是TA ALL和TA G系统显著减少了对话轮数并增加了奖励。同时,对偶学习框架通过将DST任务重新表述为序列生成任务,有效缓解奖励稀疏问题,并能在标记数据有限时达到与充分监督方法相当的性能。文章还提出了粗到细的状态跟踪器,结合上下文编码与状态解码机制,进一步提升了状态跟踪的原创 2025-09-12 13:44:26 · 96 阅读 · 0 评论 -
32、在线对话状态跟踪的深度强化学习
本文提出了一种基于深度强化学习的在线对话状态跟踪(DST)优化框架,通过引入同伴教学的思想,构建了新的RL框架,解决了传统监督学习方法在DST中的局限性。该方法通过辅助DST模型引导跟踪代理的优化过程,减少搜索空间,提高训练的稳健性和收敛速度。同时,通过联合训练DST和对话策略,提升对话系统的整体性能。实验结果表明,该框架在DSTC2/3数据集上均能有效提高对话成功率和效率。研究为复杂对话场景的应用和深度强化学习在对话系统中的进一步发展提供了新的思路。原创 2025-09-11 12:30:22 · 115 阅读 · 0 评论 -
31、结构化分层对话策略与在线对话状态跟踪的深度强化学习
本文介绍了结构化分层对话策略 ComNet 和基于深度强化学习的在线对话状态跟踪(DST)优化方法。ComNet 利用图神经网络(GNN)处理复合任务,展现出卓越的灵活性、可迁移性和性能优势。在线 DST 方法通过同伴教学框架和联合训练,实现了 DST 的在线优化,为任务导向的对话系统提供了新的思路。两者结合有望显著提升对话系统的智能性和效率。原创 2025-09-10 10:14:56 · 103 阅读 · 0 评论 -
30、基于图神经网络的结构化分层对话策略
本文提出了一种结合分层深度强化学习(HDRL)和图神经网络(GNN)的框架ComNet,用于解决复合对话任务。通过利用图结构更好地捕捉对话状态的语义信息,ComNet在样本效率、对话性能和鲁棒性方面均表现出色。实验表明,ComNet在PyDial基准测试中优于传统HDRL系统,同时具有良好的可迁移性,能够在不同任务之间快速适应和学习。未来的研究方向包括优化参数和结构、扩展应用场景以及结合其他技术提升智能水平。原创 2025-09-09 11:03:08 · 72 阅读 · 0 评论 -
29、FastFoley与ComNet:声音合成与对话策略的创新方案
本文介绍了两种创新方案:FastFoley和ComNet。FastFoley是一种基于视觉语义的音效合成模型,通过构建专用数据集AVFD和采用改进的模型结构及训练方法,在主观和客观评估中均表现优异。ComNet是一种基于图神经网络的结构化分层对话策略,解决了传统分层深度强化学习方法在采样效率、可迁移性和抗噪声能力方面的问题。两种方案分别在音效合成和复合对话任务领域展现了显著优势,并为未来研究提供了方向。原创 2025-09-08 15:33:09 · 83 阅读 · 0 评论 -
28、基于Transformer的潜在情感关系挖掘网络与FastFoley无自回归音效生成方法
本文介绍了两项创新性研究成果:基于Transformer的潜在情感关系挖掘网络(TPERMN)和FastFoley无自回归音效生成方法。TPERMN通过情感提取模块和潜在关系挖掘Transformer,在IEMOCAP和MELD数据集上取得了优异的情感识别结果,尤其在对话上下文理解方面表现出色。FastFoley则采用非自回归的Transformer架构,实现了高效的音效生成,适用于影视和游戏开发等领域。文章还分析了这两项技术的优势、挑战及未来研究方向,展望了其在智能客服、心理健康监测、影视制作等领域的应用原创 2025-09-07 12:40:12 · 85 阅读 · 0 评论 -
27、Transformer 基潜在情感关系挖掘网络用于对话情感识别
本文提出了一种基于 Transformer 的潜在情感关系挖掘网络(TPERMN),用于对话情感识别任务。该模型通过情绪提取模块和 PERformer 模块,有效地探索了上下文信息、说话者依赖性以及话语间的潜在情感关系。实验结果表明,TPERMN 在 IEMOCAP 和 MELD 两个公共数据集上均取得了优于现有方法的性能,为对话情感识别任务提供了一种更有效的解决方案。原创 2025-09-06 09:12:07 · 116 阅读 · 0 评论 -
26、基于语音转换的数据增强技术提升文本相关说话人验证性能
本文研究了在训练数据有限的情况下,如何通过基于语音转换(VC)的数据增强技术提升文本相关说话人验证系统的性能。提出了两种语音转换系统(Mel-to-Mel VC 和 PPP-to-Mel VC),并结合音高偏移策略进行数据增强,实验结果表明,综合使用这些方法能够显著降低等错误率(EER)和提升最小检测成本函数(mDCF0.1)的表现。此外,与传统的多说话人TTS系统相比,VC系统生成的语音在文本相关说话人验证任务中具有更高的质量和说话人相似度。未来的研究将探索未见或人工创建说话人的数据增强方法,进一步优化V原创 2025-09-05 09:37:45 · 93 阅读 · 0 评论 -
25、暴力检测与蒙古语语音合成技术进展
本文介绍了暴力检测与蒙古语低资源文本转语音技术的最新进展。在暴力检测方面,构建了基于CNN-ConvLSTM的模型,并提出音视频特征融合方法,显著提高了检测效果,同时指出了音视频信息不同步及数据集局限性等问题。在蒙古语语音合成方面,围绕低资源场景设计TTS挑战任务,多个团队采用VITS、Tacotron2等模型结合迁移学习提升了合成质量。总结指出,未来暴力检测将优化多模态融合与数据集拓展,蒙古语语音合成则侧重迁移学习深化与语言知识融合,以增强技术应用价值。原创 2025-09-04 14:32:38 · 77 阅读 · 0 评论 -
24、融合视觉信息到听觉场景的暴力检测
本研究提出了一种融合视觉信息到听觉场景的暴力检测方法。通过构建首个音频暴力检测数据集VioAudio,并设计基于CNN与ConvLSTM结合注意力机制的网络模型,有效提升了音频暴力检测的准确率。同时,将视觉与听觉信息融合,进一步增强了暴力事件识别的性能。研究为多模态暴力检测提供了新的思路,并为未来相关技术的发展和实际应用奠定了基础。原创 2025-09-03 10:59:34 · 60 阅读 · 0 评论 -
23、语音合成中门控情感表征的情感门方法
本文提出了一种基于门控情感表征的情感门(EG)方法,用于语音合成中的情感表达和控制。该方法通过端到端范式建模细粒度情感强度,弥补了传统基于排序函数方法的不足,并在非转移和跨说话人情感转移场景中展现出强大的情感控制能力。实验结果表明,该方法在合成语音的情感强度、自然度和音色相似度方面均优于现有方法,为实现更自然、更具情感的语音合成提供了有效的解决方案。原创 2025-09-02 16:38:04 · 61 阅读 · 0 评论 -
22、韵律与语义句法交互及语音合成中情感控制研究
本博客主要探讨了普通话中陈述疑问句(TQs)与陈述句(DSs)在韵律特征上的差异,揭示了韵律与语义句法之间的交互关系。同时,研究在语音合成中引入情感控制机制,提出了Emotion Gate(EG)组件,通过端到端的联合训练实现了更细粒度的情感表达控制。研究结果为语音合成技术的发展和普通话疑问句的韵律研究提供了新的视角和方法支持。原创 2025-09-01 15:51:50 · 63 阅读 · 0 评论 -
21、语音情感识别与普通话附加疑问句韵律特征研究
本博文介绍了两项研究:一是语音情感识别中的时频注意力机制(TF-A),该模型通过时间与频率注意力模块的协同及多任务学习结构,在情感识别性能上优于现有模型;二是普通话附加疑问句的韵律特征分析,研究发现陈述部分具有焦点特征,而疑问标记‘对不对?’表现出焦点后压缩特征,揭示了焦点位置与句法-语义的关联。这两项研究为语音处理和语言学提供了新的思路和方向。原创 2025-08-31 12:43:14 · 61 阅读 · 0 评论 -
20、基于辅助信息的时频注意力机制实现有效语音情感识别
本文提出了一种基于辅助信息的时频注意力机制,用于有效提升语音情感识别(SER)性能。通过设计TC自注意力模块和F域注意力模块,分别在时间维度和频率维度上利用音素信息和性别信息,从而保留更多情感信息并减少无关干扰。实验表明,该方法在IEMOCAP数据集上的加权准确率(WA)达到73.24%,未加权准确率(UA)达到73.18%,相比现有技术性能更优。此外,该模型在F1分数和对数据较少情感类别的识别方面也表现出色,为SER任务提供了一种有效的解决方案。原创 2025-08-30 11:29:30 · 61 阅读 · 0 评论 -
19、提升文本转语音合成效果的预训练技术
本文介绍了一种提升文本转语音(TTS)合成效果的半监督预训练技术框架。该方法通过基于自动语音识别(ASR)的数据增强手段,从大规模语音语料库中提取半监督的<语言特征, 音频>配对数据,用于预训练TTS声学模型(如AdaSpeech),从而显著减少对大量标注配对数据的依赖。实验表明,该方法在单说话人普通话任务和多说话人汉语方言任务中均表现出色,尤其在低资源语言场景下提升了语音合成的自然度和可懂度。文章还探讨了该技术的优势、应用场景以及未来发展方向。原创 2025-08-29 10:43:15 · 49 阅读 · 0 评论 -
18、语音升级检测与文本转语音合成技术研究
本博客探讨了语音升级检测与文本转语音合成技术的研究进展。在语音升级检测部分,重点分析了语音活动检测(VAD)、迁移学习和模型融合对模型性能的影响,并通过实验验证了这些技术的有效性。在文本转语音合成部分,提出了一种预训练技术框架,旨在提升低资源场景下的语音合成性能。此外,还展望了未来研究方向,包括数据增强、多模态信息融合和模型架构优化等。研究结果表明,这些方法能够显著提高语音相关任务的性能,为语音交互应用提供更高质量的解决方案。原创 2025-08-28 13:56:33 · 55 阅读 · 0 评论 -
17、语音处理与冲突升级检测技术研究
本文探讨了语音处理和冲突升级检测领域的两项前沿技术。第一项技术提出多置信门方案,用于语音增强(SE)和自动语音识别(ASR)的联合训练,通过设计特殊的损失函数和置信门机制,在嘈杂环境中显著提升了识别性能。第二项技术结合声学-语言特征和迁移学习,用于语音冲突升级检测,通过利用情感识别数据集的预训练模型,有效解决了数据资源受限的问题。两种技术分别在语音识别和公共安全领域展现出广泛的应用潜力,并讨论了其技术优势、挑战及未来发展方向。原创 2025-08-27 10:42:56 · 69 阅读 · 0 评论 -
16、多说话人多风格语音合成与多置信门联合训练方法
本文探讨了多说话人多风格语音合成和多置信门联合训练方法在语音技术中的应用。通过话语级音高和能量归一化(UttNorm),实现了说话人音色和风格的有效解耦,提升了合成语音的质量和多样性。同时,多置信门联合训练方法通过设计语音置信门预测模块,在嘈杂环境中显著提高了自动语音识别(ASR)的准确率。这些方法为语音技术在智能客服、有声读物制作、语音导航等领域的应用提供了创新性的解决方案。原创 2025-08-26 11:01:43 · 57 阅读 · 0 评论 -
15、基于元学习的对抗训练与多说话人多风格语音合成技术
本文探讨了基于元学习的对抗训练方法以及多说话人多风格语音合成技术。通过改进的情节级平衡采样和领域不变注意力模块,提升了说话人嵌入的泛化能力;同时,提出了一种简单而有效的音色和风格解耦方法,实现了更自然、更具表现力的语音合成。实验结果表明,所提出的方法在跨领域说话人识别和多风格语音合成任务中均具有优越性能。原创 2025-08-25 16:21:04 · 55 阅读 · 0 评论 -
14、多说话人语音识别与说话人验证模型的创新研究
本博客探讨了多说话人语音识别和说话人验证模型的创新研究。针对多说话人语音识别中的说话人区分问题,提出通过添加语音分离模型和融合模块改进识别性能,尤其在高重叠率和低信噪比情况下效果显著。对于说话人验证模型,引入元学习和领域级对抗训练策略,以提升在领域偏移情况下的泛化能力。实验结果显示,改进后的模型在各自任务中均优于传统方法,并探讨了其在会议记录、智能客服、安全验证等领域的应用前景。未来的研究方向包括更复杂的融合方法、多通道语音处理以及对抗训练策略的优化。原创 2025-08-24 14:01:58 · 129 阅读 · 0 评论 -
13、异常声音检测与重叠语音识别技术解析
本文深入解析了异常声音检测与重叠语音识别领域的关键技术。在异常声音检测方面,Predictive AutoEncoder(PAE)模型通过有效利用上下文信息,显著提升了检测性能,尤其在非平稳声音异常检测中表现出色。在重叠语音识别方面,结合序列化输出训练(SOT)的流水线架构为解决说话人数量未知的场景提供了有效方案,实验结果显示其在不同重叠率下均优于基线模型,展现出更强的鲁棒性。文章还对两种技术的未来发展方向进行了展望,包括自适应注意力机制研究、模型优化与多领域应用探索等。原创 2025-08-23 16:20:12 · 93 阅读 · 0 评论 -
12、基于预测自编码器的上下文感知无监督异常声音检测
本文提出了一种基于预测自编码器(PAE)的上下文感知无监督异常声音检测方法。通过引入 Transformer 的自注意力机制,PAE 能够有效捕捉声音帧之间的上下文信息,解决了传统基于自编码器方法中帧间关系利用不足的问题。实验结果表明,PAE 在 DCASE2020 挑战赛任务 2 数据集上显著优于现有的基于 AE 的方法,在平均 AUC 和 pAUC 上均有明显提升。原创 2025-08-22 12:25:18 · 104 阅读 · 0 评论 -
11、基于Paraformer的非自回归端到端语音识别模型时间戳预测方法
本文提出了一种基于Paraformer的非自回归端到端语音识别模型的时间戳预测方法。通过连续积分触发(CIF)机制,结合缩放CIF训练策略和多种权重后处理方法,实现了高质量的时间戳预测,同时提升了语音识别的准确性和效率。实验表明,该方法在AAS和DER指标上均取得了显著的降低效果,并具有较低的计算开销,适用于商业语音识别系统。原创 2025-08-21 13:10:46 · 114 阅读 · 0 评论 -
10、用于鲁棒语音识别的语义增强框架及非自回归端到端 ASR 模型的时间戳预测
本文探讨了用于鲁棒语音识别的语义增强框架以及非自回归端到端 ASR 模型的时间戳预测方法。针对语音识别中的语义可理解性、领域适应性和优化不一致问题,提出了一种结合混合 CTC/注意力模块和语义模块的语义增强框架,通过引入全局语义信息提升识别性能。同时,研究了在非自回归 ASR 模型中利用 CIF 机制及后处理策略进行时间戳预测的方法,显著提高了时间戳的准确性。实验结果表明,语义增强框架在 WER 和 KeywordER 指标上均有改善,优化后的时间戳预测方法在 AAS 和 DER 指标上表现优异。原创 2025-08-20 14:29:17 · 63 阅读 · 0 评论 -
9、SF - GAN:高性能语音合成声码器的探索
本文介绍了一种创新的语音合成声码器 SF-GAN,在 HiFi-GAN 架构的基础上进行了改进,通过源模块和分辨率条件滤波器模块的设计,实现了高质量的语音合成。SF-GAN 在分析-合成任务和 TTS 任务中均表现出色,其合成语音质量与自然语音相当,并且在未见说话者场景下具有良好的泛化能力。文章还详细探讨了 SF-GAN 的技术要点、与其他声码器的对比优势以及未来应用场景和发展方向。原创 2025-08-19 15:58:57 · 56 阅读 · 0 评论 -
8、利用表情符号和源滤波器模型提升抑郁检测与语音合成效果
本文探讨了表情符号在基于文本的抑郁检测中的应用,以及基于生成对抗网络的源滤波器模型在高保真语音合成中的作用。通过结合BERT语义特征与表情符号情感特征,有效提升了抑郁检测的准确性;同时,提出的SF-GAN语音编码器在语音合成任务中实现了优于现有方法的高质量语音生成。原创 2025-08-18 15:42:50 · 62 阅读 · 0 评论 -
7、多超图神经网络与表情符号在情感识别和抑郁检测中的应用
本博文探讨了多超图神经网络(ERMC-MHGNN)在多方对话情感识别中的应用,以及表情符号作为情感模态在文本抑郁检测中的潜力。研究展示了ERMC-MHGNN模型在MELD和EmoryNLP数据集上的优越性能,并提出了一种利用表情符号表示来增强抑郁检测效果的新方法。实验结果表明,表情符号不仅在社交媒体数据中表现出色,在临床对话等稀疏场景中也具有显著优势。这些研究为情感分析和心理健康检测领域提供了新的思路和方法。原创 2025-08-17 14:04:59 · 63 阅读 · 0 评论 -
6、多方对话情感识别的多超图神经网络
本文提出了一种用于多方对话情感识别的多超图神经网络(ERMC-MHGNN)。该模型通过构建特定说话者超图(SSHG)和非特定说话者超图(NSHG),分别处理参与者之间的自我依赖和相互依赖关系,从而更有效地捕捉对话中的情感动态性。模型结合平均聚合和注意力聚合策略,以生成更具代表性的超边特征。实验结果表明,该方法在两个公开数据集上均优于现有基线模型,并在情感转变识别任务中表现出色。原创 2025-08-16 09:43:03 · 95 阅读 · 0 评论 -
5、多特征集融合策略用于鼾声分类
本文提出了一种基于多特征集融合策略的鼾声分类方法。利用 openSMILE 工具包提取 ComParE、eGeMAPS 和 emo large 三个声学特征集,并采用支持向量机(SVM)作为分类器。通过计算样本间的欧几里得距离并移除部分相似样本,以缓解数据不平衡问题并提升分类性能。实验结果表明,多特征集融合策略在测试集上的最佳 UAR 达到 65.6%,优于单个特征集的表现。该方法在医疗诊断和健康监测等实际场景中具有潜在应用价值,未来可结合统计降维方法和先进模型进一步优化性能。原创 2025-08-15 12:28:03 · 78 阅读 · 0 评论 -
4、婴儿哭声识别与鼾声分类技术研究
本文研究了婴儿哭声识别与鼾声分类技术。在婴儿哭声识别任务中,比较了基于ResNet和ASM-DNN的方法,结果表明ASM-DNN能更准确地识别婴儿哭声,并接近儿科专家的听力测试水平。同时,文章提出了一种鼾声分类策略,通过特征提取、样本相似度计算与消除,以及机器学习模型分类,取得了优于基线的性能表现。研究强调了特征可解释性在医疗领域的重要性,并为未来临床应用提供了新的解决方案。原创 2025-08-14 14:53:43 · 144 阅读 · 0 评论 -
3、基于声学段模型的婴儿哭声识别方法
本文提出了一种基于声学段模型(ASM)的婴儿哭声识别方法,结合传统分类方法与深度学习的优点,通过初始分割和模型训练阶段对婴儿哭声进行细致建模,挖掘关键声学信息。利用潜在语义分析(LSA)和奇异值分解(SVD)处理数据稀疏性问题,并使用DNN作为分类器实现高效的婴儿哭声分类。实验表明,该方法优于传统的ResNet基线系统,在家庭和医院两个场景下的婴儿哭声数据库中均表现出良好的识别性能。此外,文章还探讨了关键参数对模型性能的影响,并展望了未来研究方向,如扩大数据库规模、优化模型结构以及结合多模态信息等。原创 2025-08-13 16:14:05 · 147 阅读 · 0 评论 -
2、MCPN:用于对话实时情感识别的创新网络
本文介绍了一种用于对话实时情感识别的创新网络模型——多重交叉感知网络(MCPN)。该模型通过上下文再感知过程、状态再感知过程和情感三重识别过程,动态捕捉对话中的语义和交互信息,有效提升了情感识别的准确性。实验结果表明,MCPN 在多个 ERC 数据集上均表现出色,尤其是在长对话和多人对话场景下。此外,模型还通过多模态信息融合和三重识别机制缓解了相似情感误分类问题,但在情感转移问题处理上仍有改进空间。原创 2025-08-12 15:47:05 · 56 阅读 · 0 评论 -
1、人机语音通信研究进展:MCPN模型解析
本文介绍了在人机语音通信领域中,针对对话情感识别(ERC)任务的研究进展,重点解析了MCPN模型的设计与实现。MCPN模型通过多模态话语特征提取、上下文预感知模块、多重交叉感知模块以及情感三重识别过程,有效解决了对话中情感误分类、说话者交互建模等难题。文章还介绍了ERC任务的挑战、相关模型比较以及实验结果,展示了MCPN在多个数据集上的优越性能,并对未来研究方向进行了展望。原创 2025-08-11 12:54:13 · 62 阅读 · 0 评论
分享