u013250861
这个作者很懒,什么都没留下…
展开
-
Qwen-Audio解读: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models
论文《Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models》提出了一条完整的“音频-语言”技术路线:以 Whisper-Large-v2 为 640 M 参数的音频编码器,串接 7.7 B 参数的 Qwen-7B 解码式语言模型,通过。原创 2025-05-16 10:47:34 · 23 阅读 · 0 评论 -
Qwen-Audio论文解读
模型需同时输出词级转写与。原创 2025-05-16 10:45:50 · 21 阅读 · 0 评论 -
WeTTS:通过工程化封装降低VITS使用门槛,加速语音合成技术在工业场景的普及
以下是 与 的技术解释及关系说明,基于公开资料整理:参考资料:原创 2025-05-15 22:03:27 · 29 阅读 · 0 评论 -
开源TTS模型:VITS(2025.3)
为了有效地解开的环境,speaker,和文本因素,我们提出了一个增量的解开过程中,环境估计器的设计,首先分解成一个环境掩码和增强的频谱环境频谱图。然后由环境编码器处理环境掩码以提取环境嵌入,而增强的频谱图促进随后的说话者和文本因素与说话者嵌入的条件的解纠缠,其使用预训练的环境鲁棒的说话者编码器从环境语音中提取。我们通过引入一个说话人归一化仿射耦合(SNAC)层来改进先前的说话人条件化方法,该层允许以零拍方式利用基于归一化的条件化技术来合成看不见的说话人语音。以适合对话上下文的风格合成语音。原创 2025-05-15 22:01:25 · 50 阅读 · 0 评论 -
利用WeNet进行Squeezeformer 训练
通过以上步骤,可高效地在WeNet框架中完成Squeezeformer模型的训练与部署。具体细节需参考官方文档及论文实验设置。原创 2025-03-04 23:22:38 · 76 阅读 · 0 评论 -
Conformer、Squeezeformer、Zipformer 对比分析
ConformerSqueezeformer选择建议:选择建议: Conformer (2020)Squeezeformer (2022)Zipformer (2024)选择建议:原创 2025-03-04 23:01:40 · 190 阅读 · 0 评论 -
自动语音识别(ASR)模型全览
场景适配建议移动端/嵌入式:Zipformer、Moonshine、QuartzNet(低功耗、轻量化)。实时交互:Squeezeformer、Transformer Transducer(低延迟)。多语言/方言:Whisper、腾讯云ASR、Paraformer(支持热词定制)。企业级服务:FunASR、WeNet(高精度、易部署)。学术研究:Kaldi、ESPnet(灵活可定制)。原创 2025-03-04 22:49:56 · 400 阅读 · 0 评论 -
Fish Speech 1.5:全球领先的多语言 TTS 工具!可本地部署“调教”。
FishSpeech是由 FishAudio 团队开发的一款TTS语音生成工具,与ChatTTS属于同时期(2024年6-7月)开源的超热门的TTS项目。而说起其团队成员,更是GitHub上的各类SVC大佬,也就是专做AI声音克隆的教父们。FishSpeech 在我刚开始看到它的时候,在GitHub上就有了3.1k Star量,如今5个月过去了,已经揽获了15.1k Star量。可见用户增长之快,因为确实好用,质量也上乘。FishSpeech 训练不像需要填写一大堆训练参数,有时候还需要进行微调。原创 2025-02-15 21:01:22 · 680 阅读 · 0 评论 -
F5-TTS本地部署教程:最强开源语音克隆TTS,极速复刻你的声音!
F5-TTS 是由上海交通大学、剑桥大学和吉利汽车研究院(宁波)有限公司于 2024 年共同开源的一款高性能文本到语音 (TTS) 系统,它基于流匹配的非自回归生成方法,结合了扩散变换器DiT) 技术。。这一系统能够在没有额外监督的情况下,通过零样本学习快速生成自然、流畅且忠实于原文的语音。F5-TTS 支持多语言合成,包括中文和英文,且能在长文本上进行有效的语音合成。此外,F5-TTS 还具备情感控制功能,能根据文本内容调整合成语音的情感表现,并支持速度控制,允许用户根据需要调整语音的播放速度。原创 2025-02-15 20:58:08 · 972 阅读 · 0 评论 -
TTS-数据集:韵律(中文&英文)数据集
这些数据集为中文TTS系统的韵律预测和建模提供了重要的资源,提升语音合成的自然度和流畅性。部分数据集可能需要申请访问或根据协议使用。原创 2025-01-11 22:18:25 · 300 阅读 · 0 评论 -
TTS-数据集:多音字(中文&英文)数据集
这些数据集可以帮助研究和开发能够准确处理多音字的中文 TTS 系统,提升语音合成的自然度和准确性。部分数据集可能需要注册或申请访问。这些数据集可以帮助训练和优化 TTS 系统,以更好地应对多音字及复杂语音现象。部分数据集可能需要申请访问或根据协议使用。原创 2025-01-11 22:16:14 · 291 阅读 · 0 评论 -
XTTS-v2模型在语音合成行业中的应用
XTTS-v2模型在语音合成行业中的应用,不仅解决了多语言支持、语音质量和个性化等痛点,还为行业带来了显著的效率和质量提升。通过实际案例的验证,XTTS-v2模型在智能客服、教育平台等领域的成功应用,展示了其巨大的潜力和价值。未来,随着技术的不断进步和应用场景的拓展,XTTS-v2模型将继续推动语音合成行业的发展,为用户带来更加自然、个性化的语音体验。XTTS-v2是一款先进的语音生成模型,能够在短短6秒的音频片段基础上,实现多语言的语音克隆。XTTS-v2模型的出现,为这些挑战提供了全新的解决方案。原创 2025-01-11 17:38:42 · 116 阅读 · 0 评论 -
【TTS】3:Bert-VITS2/OpenVoice/VITS2学习和代码实战
VITS2在VITS1的基础上做了一些优化,比如引入了transformer。OpenVoice是一个在vits模型修改而来的,主攻音色克隆的音频解耦框架(分成一个基础TTS网络和一个音色克隆网络,两个模型结构相同,但参数不同,函数处理有区别)。基础网络每种语言各一个,150M左右。音色克隆网络一个,150M左右。先将长文本划分成句子,逐句生成音频,再拼接到一起,此方法也适用于改进VALL-E-X。网络架构不复杂。主要贡献在于提供了一个解耦的框架。原创 2025-01-11 17:34:17 · 177 阅读 · 0 评论 -
Alignment
二、穷举所有有可能的alignment操作(举例:tokenN = 3为c、a、t,声学特征T = 6)插在前面的位置的null都没关系,但输出的alignment最后一个一定要是null。c、训练时需要找到得到概率结果最大的network的参数,就需要计算。3、training,就是要找到得到概率结果最大的network的参数。1、我们的目的是:给一串声学特征,得出tokens的概率。a、如何穷举所有有可能的alignment。d、特殊情况(两个相同的token连在一起的情况)(3)路线图(描述过程)原创 2024-12-23 21:35:45 · 56 阅读 · 0 评论 -
SpeechBrain: 开源的通用语音处理工具包
是一个开源的、基于PyTorch的通用语音处理工具包。它的设计目标是简化语音技术的研究和开发过程,使其变得更加简单、灵活和用户友好。作为一个全面的语音处理平台,SpeechBrain支持多种语音相关任务,包括语音识别、说话人识别、语音增强、语音分离等。SpeechBrain作为一个全面、灵活且强大的语音处理工具包,为研究人员和开发者提供了一个理想的平台来探索和开发各种语音技术。无论您是学术研究者、工业从业者还是语音技术爱好者,SpeechBrain都能为您的项目提供有力支持。原创 2024-12-18 22:05:29 · 153 阅读 · 0 评论 -
Praat:语音标注工具【保存为TextGrid文件】
Praat目前已经成为比较流行的语音处理的软件,它的使用也很方便,目前在网上有很多类似的教程,最有名的当属社科院语言所熊老师的教程,可以在语言所官方网站下载到(http://paslab.phonetics.org.cn/index.php/people/innovation_faculty/xiong_zi_yu/ ,在这个页面有一个熊子瑜,2004,《Praat 语音软件使用手册》),千万不要轻信个别网站的信息去购买这个教程。.........原创 2022-08-03 23:15:00 · 3141 阅读 · 0 评论 -
kaldifeat安装
You have to install and PyTorch first.The commands to install kaldifeat from source are:git clone https://github.com/csukuangfj/kaldifeatcd kaldifeatpython3 setup.py installTo test that you have installed kaldifeat successfully, please run:python3原创 2024-11-13 21:22:39 · 171 阅读 · 0 评论 -
语音数据集
工欲善其事必先利其器,做机器学习,我们需要有利器,才能完成工作,数据就是我们最重要的利器之一。做中文语音识别,我们需要有对应的中文语音数据集,以帮助我们完成和不断优化改进项目。我们可能很难拿到成千上万小时的语音数据集,但是这里有一些免费开源的语音数据集,大家一定不要错过。文末附数据集下载地址。原创 2024-11-13 00:40:15 · 175 阅读 · 0 评论 -
ASR解码器:CTC与RNN-T有哪些典型区别?
特性CTCRNN-T输出解码方式非自回归自回归时间对齐方式通过空白符号实现对齐拼接网络动态对齐条件独立性假设是否适用场景并行解码,非实时或离线ASR实时流式ASR网络结构和计算复杂性相对简单,解码速度快结构复杂,精度高,速度较慢在实际应用中,CTC和RNN-T常常根据任务需求选择。CTC因其高效的并行计算适合更简单的语音识别任务,而RNN-T的自回归特性和上下文依赖使其更适合需要高精度和连续性的实时语音识别系统。原创 2024-11-06 21:01:42 · 217 阅读 · 0 评论 -
开源超低延迟音频生成模型Hertz-Dev:超低延迟,实现AI实时对话
值得一提的是,Hertz-Dev 的架构采用了多种新颖的优化技术,确保了在降低计算负担的同时,输出质量依然保持高水平。这个模型的表现堪称革命性,它使得人与机器之间的互动更为自然,几乎可以与人与人之间的交流相媲美。然而,快速、高效和实时的互动仍然是一个不小的挑战。尤其是延迟问题,指的是输入与响应之间的时间差,常常让客服机器人和虚拟助手的体验变得缓慢,影响用户的使用感受。这个高效的模型使得开发者和研究人员无需庞大的基础设施,就能体验到先进的 AI 技术,真正让复杂的音频建模技术变得触手可及。原创 2024-11-06 01:29:00 · 138 阅读 · 0 评论 -
开源语音识别工具K2关键算法解读(一)训练部分
估计得到的range为[[0, 1, 2], [0, 1, 2], [0, 1, 2], [0, 1, 2], [1, 2, 3],[1, 2, 3], [1, 2, 3], [3, 4, 5], [3, 4, 5], [3, 4, 5]]表示0,1,2,3帧只考虑A,B,C,4,5,6帧考虑B,C,D以此类推。将encoder和decoder再通过另外两个映射层映射后,通过step2估计得到的srange,分别估计得到am_pruned和lm_pruned,维度均为[N,T,srange,V]。原创 2024-06-29 10:41:06 · 256 阅读 · 0 评论 -
kaldi中LSTM和tdnn怎么结合到一块?【icefall/egs/librispeech/ASR/tdnn_lstm_ctc】
在nonlin后得到的输出是cm_trunc向量,它由c_trunc和m_trunc组成(作用于t+3时刻),各占前后一半,维度取决于定义的cell_dim(1024), 故cm_trunc的维度是2048。首先kaldi中实现lstm的第一层是W_all,在t时刻,它的输入包括上一层(tdnn)的输出x、lstm自身在(t-3)时刻的输出m_trunc,该层的输出是经过四个门(,在t时刻拼接三帧特征后送进tdnn,之后再把tdnn的输出送进lstm,但是lstm不仅需要当前的输入,还需要t-3时刻(原创 2024-06-20 23:43:40 · 134 阅读 · 0 评论 -
ASR-端对端模型01:CTC【是RNN的输出层,包含了所有可能的对齐方式的分布】【本身并不是模型结构,而是用于指导模型训练的机制】【训练采用前-后向算法,解码采用贪心或束搜索】【对比与CRF的区别】
在语音识别中,我们的数据集是音频文件和其对应的文本,不幸的是,音频文件和文本很难再单词的单位上对齐。除了语言识别,在OCR,机器翻译中,都存在类似的Sequence to Sequence结构,同样也需要在预处理操作时进行对齐,但是这种对齐有时候是非常困难的。如果不使用对齐而直接训练模型时,由于人的语速的不同,或者字符间距离的不同,导致模型很难收敛。原创 2024-05-29 01:07:24 · 350 阅读 · 0 评论 -
ASR-端对端模型02:RNN-T(RNN-Transducer)【Sequence Transduction with Recurrent Neural Networks】
而使用小的 vocabulary size, 可能会影响模型的性能。如果使用一个很小的 vocabulary size,那么对于 out-of-vocabulary (OOV) 这种问题,就会更加常见。而降低模型的参数量,也会影响模型的性能。所以,RNN-T 训练时,所需的内存正比于 N, T , U, C 这 4 个数的乘积 NTUC。相比较之下,RNN-T 模型的训练,对内存的要求高了一个数量级。RNN-T 模型最后一层的输出是一个 4-D 的 tensor,维度是 (N, T, U, C), 其中。原创 2024-05-29 01:06:37 · 361 阅读 · 0 评论 -
ASR-端对端模型03:pruned RNN-T【改变RNN-T最后一层的输出维度,从(N, T, U, C)变成了(N, T, S, C)】
并且,使用 pruned RNN-T 训练的模型,已经在若干个大数据集上做到了 state-of-the-art (SOTA)的性能。截止目前,在不使用任何外部语言模型的情况下,pruned RNN-T 在 LibriSpeech test-clean 测试集 上的 WER 是 2.00, 在 test-other 上 的 WER 是 4.63。我们希望,pruned RNN-T 的开源,能够助力 RNN-T 在生产环境中的使用,缩短模型训练所需的时间,简化端到端模型的部署,为企业节约成本。原创 2024-05-29 01:07:00 · 199 阅读 · 0 评论 -
ASR-端对端模型04:RNNT-SLP/Stateless【Rnn-T的预测网络中不用RNN层】【预测网络的最大作用似乎是阻止输出重复的建模单元,即可以控制<blank>标签的预测概率】
当文本-语音平行语料规模较大时,RNN-Transducer(RNNT)显著优于传统语音识别模型。但是对于低资源语言,RNNT经常会过拟合,并且不像传统ASR系统,无法利用额外的大规模文本语料。RNNT中的预测网络(prediction network)一般被认为类似于传统ASR模型的语言模型(Language Model,LM),但通过实验发现,使用文本语料预训练预测网络并不能带来提升。原创 2024-05-29 01:07:15 · 257 阅读 · 0 评论 -
CTC与RNN-T的对比
RNN-T模型将声学特性和语言特性联合起来建模,消除了CTC模型中输出无关的缺点。然而,这种引人注目的特性是以训练过程中高内存和计算消耗为代价的。具体来说,RNN-T损失函数在一个形状为(N, T, U, V)的4D张量上进行计算,其中N是批量大小,T是声学编码器的输出长度,U是预测网络的输出长度,V是词汇表大小。原创 2024-06-20 00:10:22 · 208 阅读 · 0 评论 -
k2/rnnt_loss.py-第二版
# Copyright 2021 Xiaomi Corp. (author: Daniel Povey, Wei Kang)## See ../../../LICENSE for clarification regarding multiple authors## Licensed under the Apache License, Version 2.0 (the "License");# you may not use this file except in compl原创 2024-06-19 00:18:43 · 108 阅读 · 0 评论 -
k2/rnnt_loss.py-第一版
# Copyright 2021 Xiaomi Corp. (author: Daniel Povey, Wei Kang)## See ../../../LICENSE for clarification regarding multiple authors## Licensed under the Apache License, Version 2.0 (the "License");# you may not use this file except in compl原创 2024-06-18 01:03:49 · 83 阅读 · 0 评论 -
k2/rnnt_loss.py---->get_rnnt_logprobs_smoothed
【代码】k2/rnnt_loss.py---->get_rnnt_logprobs_smoothed。原创 2024-06-17 22:10:29 · 90 阅读 · 0 评论 -
torchaudio.functional.rnnt_loss
【代码】torchaudio.functional.rnnt_loss。原创 2024-06-17 23:10:30 · 97 阅读 · 0 评论 -
k2-rnnt_loss.py
# Copyright 2021 Xiaomi Corp. (author: Daniel Povey, Wei Kang)## See ../../../LICENSE for clarification regarding multiple authors## Licensed under the Apache License, Version 2.0 (the "License");# you may not use this file except in compl原创 2024-06-16 22:38:14 · 96 阅读 · 0 评论 -
ASR测试方法---字错率(WER)、句错率(SER)统计
HTK工具,HTK(HMM Toolkit)一款基于HMM模型(隐马尔可夫模型)的语音处理工具,原创 2024-06-06 00:08:30 · 674 阅读 · 0 评论 -
ASR Conformer模型论文及代码分析
Conformer是Google在2020年提出的语音识别模型,基于Transformer改进而来,主要的改进点在于Transformer在提取长序列依赖的时候更有效,而卷积则擅长提取局部特征,因此将卷积应用于Transformer的Encoder层,同时提升模型在长期序列和局部特征上的效果,实际证明,该方法确实有效,在当时的LibriSpeech测试集上取得了最好的效果。原创 2024-05-29 01:06:47 · 704 阅读 · 0 评论 -
新一代Kaldi技术总结
根据lattice中不同通路的产生的时延,对RNN-T的log-probability lattice进行简单的修正,让模型更倾向于学习时延更短的通路。在该项工作中我们在 GPU 上实现了高效的 FSA 解码,为此我们对 RNN-T 做了一些改造,首先我们在 RNN-T 中使用了无状态的 decoder 网络,使用有限的left context;知识蒸馏是常见的提升模型表现的办法。该办法能够在几乎不影响知识蒸馏的效果的前提下,实现对教师标签上百倍的压缩,有效的解决了传统知识蒸馏办法在大数据集下面临的困境。原创 2024-05-29 01:06:27 · 207 阅读 · 0 评论 -
INTERSPEECH 2022论文解读|Paraformer: 高识别率、高计算效率的单轮非自回归端到端语音识别模型
计算复杂度与迭代轮数有关(通常小于目标文字个数),相比于自回归模型,计算复杂度有所下降,但是解码需要多轮迭代的特性,限制了其在工业生产中的应用。对于单轮非自回归模型,现有工作往往聚焦于如何更加准确的预测目标文字个数,如较为典型的 Mask CTC[3],采用 CTC 预测输出文字个数,尽管如此,考虑到现实应用中,语速、口音、静音以及噪声等因素的影响,如何准确的预测目标文字个数以及抽取目标文字对应的声学隐变量仍然是一个比较大的挑战。,计算复杂度与目标文字个数无关,进而极大的提高了解码效率。原创 2024-05-29 01:06:17 · 422 阅读 · 0 评论 -
编辑距离与字符错误率CER
在场景中,字符错误率(Character Error Rate,CER)是衡量语音识别效果的一个重要指标。下文将介绍CER的原理,并且给出python实现的代码。原创 2024-05-29 01:06:06 · 233 阅读 · 0 评论 -
语音版语言模型【Audio LLM】
In this repository, we survey three crucial areas: (1) representation learning, (2) neural codec, and (3) language models that contribute to speech/audio large language models.1.⚡Speech Representation Models:These models focus on learning structural sp原创 2024-05-21 02:22:42 · 350 阅读 · 0 评论 -
语音识别:经典模型【LAS、CTC,RNA,RNN-T、Neural Transducer,MoChA】
Text: a sequence of Token 长度:N,总种类数量:V。Sound: vectors sequence 长度:T,维度:d。语音模型:即将 sound 转为 text。原创 2024-05-21 00:36:11 · 371 阅读 · 0 评论 -
ASR-详解CTC(Connectionist Temporal Classification)
在语音识别中,我们的数据集是音频文件和其对应的文本,不幸的是,音频文件和文本很难再单词的单位上对齐。除了语言识别,在OCR,机器翻译中,都存在类似的Sequence to Sequence结构,同样也需要在预处理操作时进行对齐,但是这种对齐有时候是非常困难的。如果不使用对齐而直接训练模型时,由于人的语速的不同,或者字符间距离的不同,导致模型很难收敛。原创 2024-05-13 23:25:52 · 335 阅读 · 0 评论