- 博客(296)
- 资源 (20)
- 收藏
- 关注
原创 语音合成之十五 语音合成(TTS)分句生成拼接时的响度一致性问题:现状、成因与对策
摘要:TTS分句拼接中的响度一致性挑战与解决方案语音合成(TTS)系统在分句生成拼接时普遍存在响度不一致问题,表现为句子间音量跳变,影响听觉体验。该问题源于分段生成的固有特性,包括频谱失配、缺乏上下文感知、韵律预测差异等。现代端到端神经模型虽提升语音质量,却因独立生成片段而加剧了这一问题。解决方案主要包括:后处理技术(如LUFS感知响度归一化)和基于模型的韵律控制(显式能量预测、长时上下文建模)。尤其值得注意的是,情感TTS在追求表现力的同时更易产生响度波动,需在韵律控制与一致性间取得平衡。未来需进一步研
2025-05-23 23:12:42
560
原创 语音合成之十四 文本转语音(TTS)开源数据集
近年来,深度学习推动了文本转语音(TTS)技术的显著进步,能够生成高度逼真且可控的语音。高质量、大规模且多样化的数据集是训练先进TTS模型的基础。TTS数据集需要包含音频-文本校对、时间对齐、元数据等,以捕捉语音的细微差别。数据集的构建涉及语言学、信号处理和数据科学,是TTS系统开发的核心环节。数据增强策略如噪声注入、音高变换等,可提高模型泛化能力。数据预处理中的采样率统一、文本规范化和声学特征提取是确保模型性能的关键步骤。文本规范化处理数字、缩写等非标准词,音素化策略则涉及字符、字位与音素的转换,对合成语
2025-05-14 20:49:58
748
原创 语音合成之十三 中文文本归一化在现代语音合成系统中的应用与实践
中文文本归一化在现代语音合成系统(TTS)中扮演着关键角色,旨在将书面文本转换为标准化的口语化形式,以确保合成语音的准确性和自然度。中文由于其复杂的语言特性,如多音字、数字、日期等非标准词(NSW)的多样性,对文本归一化提出了挑战。归一化过程包括预处理、非标准词识别与转换、后处理三个主要阶段,涉及字符宽度转换、Unicode标准化、繁简转换等步骤。主流TTS系统如SparkTTS和CosyVoice虽然依赖大型语言模型(LLM)处理文本,但仍需显式的文本归一化模块来确保复杂中文输入下的语音合成质量。
2025-05-11 21:17:04
710
原创 语音合成之十二 TTS声学编解码器的演进
从HiFi-GAN在波形合成效率与保真度上取得的突破,到XCodec2.0和BiCodec在语义丰富性与可控性方面的探索,TTS声学编解码技术在过去数年中取得了令人瞩目的进展。GAN的基石地位: 生成对抗网络(GAN)仍然是训练高保真声码器和编解码器的核心技术之一,尽管通常会辅以感知损失和特征匹配损失来进一步提升效果。
2025-05-08 09:03:37
1007
原创 语音合成之十一 提升TTS语音合成效果:低质量数据清洗、增强与数据扩增
在开始收集和处理数据之前,详细的规划至关重要,它决定了项目的可行性和最终效果。发音人策略:首先要确定是构建单发音人还是多发音人数据集。对于初学者或特定应用(如语音克隆),单发音人数据集更简单,易于管理和训练。多发音人模型则需要更复杂的数据平衡策略和发音人身份(Speaker ID)管理技术。数据来源与授权:明确音频数据的来源,例如有声读物、播客、广播档案、专业录音或自行录制。至关重要的一点是,必须确保拥有使用这些数据进行模型训练的合法权利或许可。忽视版权问题可能导致严重的法律风险。
2025-05-05 22:00:00
958
原创 语音合成之十韵律之美:TTS如何模拟语音的节奏和语调
韵律,也称为超音段特征(Suprasegmentals),是指语音中超越单个音素(元音和辅音)层面,通常应用于音节、词语、短语乃至整个句子序列的语音特征。它是语音的“调”与“节奏”的研究,关注这些特征如何贡献于意义的表达。音高/语调 (Pitch / Intonation): 指声音感知的基频(Fundamental Frequency,F0F_0F0)高低变化。
2025-04-29 19:00:00
1038
原创 语音合成之九注意力机制在TTS中的应用:让模型“听懂”文本
早期的TTS系统依赖于预先录制的语音片段或基于规则的参数模型,在自然度和灵活性方面存在诸多限制。深度学习的出现,特别是端到端神经TTS模型的兴起,极大地提升了语音合成的质量,使得合成的语音更加接近人类的自然发声。在基于神经网络的TTS发展过程中,注意力机制扮演了至关重要的角色。它有效地解决了传统序列到序列模型在处理长文本时遇到的瓶颈问题,并为模型提供了在生成语音的每个时刻关注输入文本相关部分的能力。
2025-04-28 19:00:00
730
原创 语音合成之八-情感化语音合成的演进路线
人类的交流沟通本质上是充满情感的。无论是日常对话还是正式演讲,语音都不仅仅是信息的载体,更是情感、态度和意图的表达方式 。情感化语音合成(Emotional Speech Synthesis, ESS)旨在弥合功能性文本到语音(Text-to-Speech, TTS)系统与真正类人交互之间的鸿沟。它赋予机器通过语音表达各种情感的能力,使得人机交互更加自然、生动和富有同理心 。情感化语音合成技术对于提升用户体验至关重要,尤其是在虚拟助手、游戏、个性化服务等应用场景中,能够显著增强系统的亲和力和吸引力 。早期
2025-04-27 19:00:00
1241
原创 语音合成之七语音克隆技术突破:从VALL-E到SparkTTS,如何解决音色保真与清晰度的矛盾?
更强大的说话人编码器的开发对于实现更好的语音克隆至关重要。YourTTS 的设计理念在于利用多语言训练的优势,提升模型在零样本多说话人文本到语音合成和语音转换方面的性能,并降低对大量数据的依赖,尤其是在低资源语言的场景下。将 TTS 视为对离散音频标记的语言建模任务,代表了该领域的一种范式转变,借鉴了语言模型在 NLP 中的成功经验,并可能为跨不同模态的生成式 AI 提供更统一的方法。然而,长久以来,如何才能在精确复制说话者音色的同时,确保合成语音的清晰度和自然度,一直是该领域面临的核心挑战。
2025-04-26 10:29:35
985
原创 语音合成之六端到端TTS模型的演进
近年来,基于大型语言模型的TTS模型,如2025年提出的SparkTTS ,以及侧重于可扩展性和多语种能力的Cosyvoice(2024年) ,相继涌现。注意力机制是Tacotron模型的一项关键创新,它使得解码器在生成每个音频帧时,能够自动地聚焦于输入文本序列的相关部分,从而学习文本特征与相应音频帧之间的对齐关系。首先,训练一个教师模型,然后从教师模型的注意力对齐中提取音素的持续时间,并使用教师模型生成的梅尔频谱图作为目标来训练FastSpeech模型及其时长预测器。
2025-04-25 23:25:27
793
原创 语音合成之五语音合成中的“一对多”问题主流模型解决方案分析
这些模型都利用深度学习架构,特别是Transformer或基于Transformer的模型,旨在生成自然且富有表现力的语音,并支持某种形式的说话人控制,包括语音克隆能力。FSQ优化了语音特征的提取,从而提升了合成语音的质量。SparkTTS的BiCodec架构通过将语义和说话人属性明确分离为不同的标记类型,为控制语音的不同方面提供了一种清晰的机制,从而直接解决了“一对多”问题。先进的TTS模型的目标不仅是生成可理解的语音,更重要的是能够捕捉和控制这些变化参数,从而产生更自然、更具表现力的音频。
2025-04-25 21:00:00
1226
原创 语音合成之四大语言模型(LLM)与TTS的深度融合
基于LLM的方法摆脱了音素建模,采用了LLM+Decoder架构,在大大简化了TTS的复杂度的同时,提高了合成的可控性,LLM作为这些TTS系统的核心组件或基础架构被反复提及,标志着TTS领域从传统的声学建模方法向利用LLM的语义理解和生成能力的重大转变。这种范式转变直接促成了零样本语音克隆和多语种支持等功能的进步。基于 LLM 的 TTS 技术正在迅速发展,LlaSA、CosyVoice 和 SparkTTS 等模型代表了该领域的重大进步。
2025-04-23 19:00:00
851
原创 语音合成之三MeloTTS模型
你是否曾为找不到一款既能流利说中文,又能自然地混合英文的语音合成工具而烦恼?或者,你是否希望在普通的电脑上也能实现快速、高质量的语音合成,而无需昂贵的专业硬件?如果你的答案是肯定的,那么MeloTTS绝对值得你关注。MeloTTS 是一款由 MyShell AI 开发的高质量、多语种文本转语音(TTS)库。它最引人注目的特点之一是其对多种语言的支持,包括英语、西班牙语、法语、中文、日语和韩语。对于中文用户来说,MeloTTS 尤其友好,因为它能够出色地处理中英文混合发音,这在许多实际应用场景中都非常实用。
2025-04-23 10:02:32
984
原创 语音合成之二TTS模型损失函数进化史
以掷骰子为例,一个六面体的骰子,从统计意义上来说,只要采样数量足够多,那么六个面的数字[1,2,3,4,5,6]应该是均匀分布的,如果采用L1或者L2的loss,让模型预测足够次数掷骰子的点数,那么为了是预测统计误差是最小,模型倾向于预测3或者4,可以看出来两端的极值被模型忽略了,模型输出对齐的是统计值偏好。但是这样训练的模型逼真度仍然较差,其主要的原因是引言里提到的“数值逼近”而非“听觉逼近”,而且L1/L2的“数值逼近”逼近的统计数值,而不是具有随机性的真实分布的数值。
2025-04-18 19:00:00
533
原创 语音合成之一TTS技术发展史综述
文本转语音(Text-to-Speech,TTS)技术是一种将书面文本自动转换为人类语音的技术。它是一门交叉学科,融合了语言学、声学、计算机科学和电子工程等多个领域的知识。TTS技术通过计算机合成逼真的语音,使得用户能够通过听觉获取信息,极大地扩展了人机交互的方式。从早期的机械发声装置到如今高度智能化的语音合成系统,TTS技术已经渗透到我们日常生活的方方面面,例如智能语音助手(亚马逊Alexa、豆包、苹果Siri等)、屏幕阅读器(为视力障碍人士和阅读障碍者)、教育软件、媒体与娱乐(播客、有声读物、视频/游戏
2025-04-17 10:46:41
953
原创 腿足机器人之十四-强化学习SAC算法
在实际机器人训练中,PPO适合在仿真环境中大量的进行,这是因为仿真环境可以产生大量的数据,而这正好满足了On-Policy 所需的大量交互数据,但是SAC的Off-Policy 特性复用旧数据,这意味着在真实世界中收集的数据可以服用,这提高了学习复杂动态的能力(如适应不同地面摩擦力),二者的结合是常用的方法。熵的概念源于信息论,原本表示的是编码信息所需要的比特数,信息量越少(确定性高),需要的用来编码信息的比特数也越少,这里熵衡量的是策略的随机性,熵越大策略越随机,这样有助于探索。
2025-02-28 21:00:00
1229
原创 腿足机器人之十三-强化学习PPO算法
PPO(Proximal Policy Optimization)算法稳定性强,适合大多数的仿真环境,如MuJoco/Isaac Gym,是初上手的首选,SAC(Soft Actor-Critic )算法在需要高效探索或真实机器人部署(样本成本高)时更优,际工程中,PPO+SAC 组合(如 PPO 微调 + SAC 迁移)已成为提升鲁棒性的常见方案。的,OpenAI一直想做的是AGI,chatGPT是AGI决策中枢,而机器人是AGI在现实世界交互的核心,而机器人运动、姿态控制室交互中的核心。
2025-02-27 19:00:00
1458
原创 腿足机器人之十二-VLA视觉语言动作模型
传统控制方法无法直接理解人类模糊或复杂的指令(如 “去二楼查看是否有异常”),需依赖固定脚本,有了VLA,就可以通过视觉感知环境语义(如识别 “楼梯” 或 “坑洞”),结合语言指令(如 “上楼” 或 “绕过障碍”),生成适应地形的步态和路径规划。多模态感知与对齐视觉编码器:使用 ViT 或 ResNet 提取环境特征(如地形高度图、障碍物位置)。示例:从 RGB-D 图像中分割出可通行区域与危险区域(如波士顿动力 Spot 的视觉导航模块)。
2025-02-23 20:15:13
1290
原创 腿足机器人之十一- 深度强化学习
深度学习技术已经在语音、图像、视频、文本等领域应用广泛,其和强化学习的结合使得基于深度学习的大模型能力更是上升一个台阶。因而用在腿足机器人的运动中枢上也不足为奇,但是和电子化格式的语音、图像、文本而言,机器人的运动姿态涉及到真实的物理世界,要符合物理规律和宏观力学定律。
2025-02-22 10:10:11
1318
原创 腿足机器人之十- SLAM地图如何用于运动控制
在有了地图之后,需要找到起点到目标点的最优路径(避开已知障碍物),首先进行全局路径规划(基于静态地图),常用的算法有A*、Dijkstra、RRT*等。然后再使用局部路径规划(避开动态障碍物,实时调整路径),常用的算法有动态窗口法(DWA)、人工势场法。和到底机器人相比,腿足机器人可以双脚离地(小跑、跳跃),SLAM地图需要包含高度信息,因此使用三维地图,这可以使用点云地图、高程地图以及体素地图。零力矩点(ZMP)稳定性判据。2.SLAM与运动控制流程。2.滚动优化:在时间窗口。条腿的地面反作用力,
2025-02-20 20:24:24
911
2
原创 腿足机器人之九- SLAM基础
机器人运动控制的核心目标是让机器人在环境中安全、高效地移动,前面的博客中主要阐述的是腿足机器人高效的移动(关节结构、高层运动规划、中层运动、逆运动学以及底层的PD电机驱动控制),而SLAM(Simultaneous Localization and Mapping,即时定位与地图构建) 是机器人实现自主导航的基石。因此,SLAM为运动控制提供了环境感知和定位信息,两者结合才能实现真正的自主导航。
2025-02-18 19:00:00
914
原创 腿足机器人之八- 腿足机器人动力学
腿足机器人的运动学解决“如何到达目标位置”的问题,动力学解决“如何高效稳定地到达”的问题。两者结合,使机器人能够在复杂环境中实现类生物的灵活运动,是仿生机器人领域的核心技术。如波士顿动力Atlas通过逆运动学规划跳跃动作,结合动力学模型计算关节力矩以实现空翻, MIT Cheetah利用简化动力学模型(弹簧负载倒立摆)实现高速奔跑,同时优化能量效率。
2025-02-16 11:55:31
1610
原创 腿足机器人之七- 逆运动学
偏航(Yaw):绕Z轴旋转,角度记为ψ\psiψ俯仰(Pitch):绕Y轴旋转,角度记为θ\thetaθ横滚(Roll):绕X轴旋转,角度记为ϕ\phiϕ基座标系(O₀)设在髋关节中心,X轴向前,Y轴向左,Z轴向上。
2025-02-16 10:06:56
1563
原创 腿足机器人之六- 前向运动学
基坐标系(base frame):通常固定在机器人躯干或髋关节处(如上图中间的圆圈位置,在髋关节的旋转中心),通常以髋关节的初始位置为原点,Z轴(Yaw)垂直于躯干平面(竖直方向,人体直立时从脚到头的连线),X轴(Roll)指向机器人前进方向,Y轴(Pitch,从左肩到右肩的连线)。关节坐标系:每个关节的局部坐标系,用于描述相邻连杆的相对运髋关节坐标系:与基坐标系重合(初始状态),当髋关节偏航(Yaw)时,绕基坐标系的Z轴旋转。膝关节坐标系:位于大腿末端,绕髋关节俯仰轴(Y轴)旋转。
2025-02-15 19:33:38
1452
原创 腿足机器人之五- 粒子滤波
上面的离散的可能状态如何求得?分为静态和动态法,静态分解技术依赖于一个预先选定的固定分解方案,这种方案在分解过程开始前就已经确定,且不考虑被近似的后验概率分布的具体形状。这类技术能更有效地针对状态空间中后验概率较大的区域提供更高的分辨率,而在概率较低的区域采用更粗糙的分解,从而节省计算资源并提高效率。这些权重是根据每个粒子相对于观测数据的似然性来分配的,即反映了每个粒子如何适应观测数据的程度。通常粒子的状态总数M是一个很大的数,如M=1000,在一些实现中M也是时间或者和后验概率有联系的其他变量的函数。
2025-02-15 08:46:02
914
原创 腿足机器人之四- 卡尔曼滤波
机器人的任务是根据传感器读取和之前的移动历史估计自己的当前位置。这里的关键是如何根据新的传感器数据更新机器人对当前位置的估计。
2025-02-14 08:59:08
985
原创 腿足机器人之二- 运动控制概览
腿足机器人的所有运动,最终都会反应在对关节的控制上,大体上关节的运动一般采用运动学和强化学习两类方法,如运动学逆解算法用于规划关节角度(如肘式/膝式腿的几何求解),强化学习(RL)优化步态生成,如NVIDIA Isaac Lab端侧部署方案。RL方法的一个挑战是获得训练数据,在机器人行走之前,采集数据的成本是高昂的,所以一般训练都是先基于仿真环境,在在仿真中定义奖励函数(如前进速度、能量效率、姿态稳定性),然后通过PPO或SAC算法优化策略模型预测结果,然后再迁移到实际的环境中。例如,给定足端目标位置。
2025-02-13 18:50:09
1419
原创 腿足机器人之一- 机械与电子组件概览
腿足机器人主要结构是由刚体(links)和关节(joints)组成的,在这种设计结构中,每个刚体部件被称为“连杆”,它们是支撑结构,不仅仅承载着装置自身的重量,还可能面对工作时的各种负载。从腿足机器人的角度看,通常是将分解之后的运动姿态,比如某一个关节角度信息直接传给控制器,控制器内部将目标位置信息通过PID/PD算法转为电机(motor)控制信号,然后为电机提供合适的电流电压(控制器的正负3.3v带不动力矩较大的关节运动),然后通过将电能转成电机机械能,带动机器人的运动。齿轮是带齿的机械组件。
2025-02-13 18:49:46
1754
2
原创 大模型之三十三- 开源Melo 语音合成
文本到语音(TTS)系统从基于基础音素的模型演变成复杂的端到端神经方法,这种方法可以直接将文本转换为语音。这一变革得益于深度学习的进步和计算能力的提升,已经在语音的自然度、韵律控制和跨语言能力方面取得了重大进展。现代TTS系统现在服务于多样化的应用领域,从智能助理到辅助工具和人机交互界面。
2025-01-19 12:45:04
469
原创 第四章 神经网络声码器
WaveNet 是DeepMind 提出的一种深度学习声码器,2016 年 9 月的一篇论文中进行了概述[1],旨在能够直接从原始音频数据生成语音。WaveNet 最初是为了改进传统的文本到语音(TTS)系统的语音质量提出的,其采用卷积神经网络生成音频波形,实现了比传统方法更自然的声音。WaveNet 的主要挑战在于需求巨大的计算资源,这使得它在实际应用中受到了限制。
2025-01-12 23:04:26
1372
1
原创 第三章 WORLD 声码器
WORLD Vocoder由日本学者开发,主要用于提高音频信号处理时音质的保真度,通过对传统的Vocoder方法进行改良,提供更加清晰的语音合成效果,常用于语音研究和音乐制作,其优点在于可以用在实时系统上,在算力和效果上做了很好的平衡。谱分析(Spectral Analysis),谱分析是用来从语音信号中提取声谱特征的技术。它涉及到将语音信号分解为一系列的频率组成部分,以便于更细致地理解和处理这些成分。
2025-01-12 15:08:51
1038
原创 第二章 线性预测编码(LPC)
这里主要是LPC声码器,这部分的内容绝大部分摘自我的专利《》,对内部细致的实现,以及LPC声码器在音频编解码上如何使用的,可以参看该专栏线性预测编码 (LPC) 是一种主要用于音频信号处理和语音处理的方法,用于使用线性预测模型的信息以压缩形式表示数字语音信号的频谱包络。LPC 通过估计共振峰、从语音信号中去除它们的影响以及估计剩余“噪声”的强度和频率来分析语音信号。去除共振峰的过程称为逆滤波,减去滤波后的建模信号后剩余的信号称为残差。LPC 是语音编码、语音合成以及歌声合成中使用最广泛的方法。
2025-01-11 20:22:19
1373
原创 第一章 相位编码器(Phase Vocoder)
开篇先留一个问题,现在TTS大模型、音乐生成大模型的“电音”/“机器音”/“合成音”、“金属感”、以及清晰度低在信号层面该如何解释?
2025-01-11 17:50:49
1440
原创 大模型之三十二-语音合成TTS(coqui) 之二 fine-tune
在[shichaog @CSDN]中提到了xttsv2的fine-tune。 这里公布一下结果。
2024-10-15 21:02:24
859
1
原创 大模型之三十一-音源分离
因为TTS模型训练还有几个结果没出,本篇先介绍一下音乐分离模型吧。其实可能你也猜到了,一部分TTS的数据是网上爬来的,这种音频可能会有背景音之类的,这里需要将乐器类的伴奏去掉。所以就此介绍一下本篇文章吧。在选择和使用音乐源分离工具时,没有“一劳永逸”的最佳方案,因为每首歌曲的录制和混音方式都有所不同。因此,尝试和比较不同的模型和设置,根据具体情况调整策略,是达到最佳分离效果的关键。因为本篇集中在对人声的提取,所以重点关注于vocal的性能。
2024-09-10 20:10:09
3550
1
原创 大模型之三十-语音合成TTS(coqui xTTSv2)
CoquiTTS是一个开源的文字到语音(Text-to-Speech,TTS)系统,旨在使语音合成技术对研究人员、开发者和创造者更加可接近。它基于先前的项目。音色克隆,可以提供仅仅3秒的音频就实现声音克隆;跨语言克隆,比如英文到中文,中文到英文等,共计16中语言24kHz采样率,对于speech够了,但是对于Music一般要支持立体声、44.1kHz流式推理延迟小于200ms支持模型fine-tune。
2024-09-09 21:23:10
4517
原创 大模型之二十九-语音识别Whisper推理加速
在上一篇博客《大模型之二十八-语音识别Whisper进阶》中我们留了一个尾巴,就是在流式场景以及如何提升推理速度。
2024-08-31 10:31:10
2185
1
原创 大模型之二十八-语音识别Whisper进阶
在上一篇博客中遗留了几个问题,这里来看一下前两个问题。1.如果不是Huggingface上可以下载的数据该怎么办?2.上面的代码是可以训练了,但是训练的时候loss真的会和我们预期一致吗?比如如下怎么办?
2024-08-29 19:07:51
2208
原创 大模型之二十七-语音识别Whisper实例浅析
output_dir:模型权重存储的位置generation_max_length:在评估时,自回归生成token的最大值save_steps:在训练时,中间的checkpoint将在save_step时被保存eval_steps:在训练时,每eval_steps到达时会评估模型性能report_to:训练的log保持的位置fp16=True,
2024-08-28 21:05:11
9725
1
深度学习 模型调优 keras mnist
2022-06-06
bluetooth BLE server
2016-12-12
vim 技巧和插件
2015-05-08
linux tcp/ip协议栈
2015-04-22
命名空间 Linux
2014-11-21
Linux系统启动那些事—基于Linux 3.10内核
2014-10-25
Linux310启动
2014-10-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人