u013250861
这个作者很懒,什么都没留下…
展开
-
开源语音识别工具K2关键算法解读(一)训练部分
估计得到的range为[[0, 1, 2], [0, 1, 2], [0, 1, 2], [0, 1, 2], [1, 2, 3],[1, 2, 3], [1, 2, 3], [3, 4, 5], [3, 4, 5], [3, 4, 5]]表示0,1,2,3帧只考虑A,B,C,4,5,6帧考虑B,C,D以此类推。将encoder和decoder再通过另外两个映射层映射后,通过step2估计得到的srange,分别估计得到am_pruned和lm_pruned,维度均为[N,T,srange,V]。原创 2024-06-29 10:41:06 · 85 阅读 · 0 评论 -
kaldi中LSTM和tdnn怎么结合到一块?【icefall/egs/librispeech/ASR/tdnn_lstm_ctc】
在nonlin后得到的输出是cm_trunc向量,它由c_trunc和m_trunc组成(作用于t+3时刻),各占前后一半,维度取决于定义的cell_dim(1024), 故cm_trunc的维度是2048。首先kaldi中实现lstm的第一层是W_all,在t时刻,它的输入包括上一层(tdnn)的输出x、lstm自身在(t-3)时刻的输出m_trunc,该层的输出是经过四个门(,在t时刻拼接三帧特征后送进tdnn,之后再把tdnn的输出送进lstm,但是lstm不仅需要当前的输入,还需要t-3时刻(原创 2024-06-20 23:43:40 · 49 阅读 · 0 评论 -
ASR-端对端模型01:CTC(Connectionist Temporal Classification)【Forward-Backward算法】
在语音识别中,我们的数据集是音频文件和其对应的文本,不幸的是,音频文件和文本很难再单词的单位上对齐。除了语言识别,在OCR,机器翻译中,都存在类似的Sequence to Sequence结构,同样也需要在预处理操作时进行对齐,但是这种对齐有时候是非常困难的。如果不使用对齐而直接训练模型时,由于人的语速的不同,或者字符间距离的不同,导致模型很难收敛。原创 2024-05-29 01:07:24 · 136 阅读 · 0 评论 -
ASR-端对端模型02:RNN-T(RNN-Transducer)【Sequence Transduction with Recurrent Neural Networks】
而使用小的 vocabulary size, 可能会影响模型的性能。如果使用一个很小的 vocabulary size,那么对于 out-of-vocabulary (OOV) 这种问题,就会更加常见。而降低模型的参数量,也会影响模型的性能。所以,RNN-T 训练时,所需的内存正比于 N, T , U, C 这 4 个数的乘积 NTUC。相比较之下,RNN-T 模型的训练,对内存的要求高了一个数量级。RNN-T 模型最后一层的输出是一个 4-D 的 tensor,维度是 (N, T, U, C), 其中。原创 2024-05-29 01:06:37 · 156 阅读 · 0 评论 -
ASR-端对端模型03:pruned RNN-T【改变RNN-T最后一层的输出维度,从(N, T, U, C)变成了(N, T, S, C)】
并且,使用 pruned RNN-T 训练的模型,已经在若干个大数据集上做到了 state-of-the-art (SOTA)的性能。截止目前,在不使用任何外部语言模型的情况下,pruned RNN-T 在 LibriSpeech test-clean 测试集 上的 WER 是 2.00, 在 test-other 上 的 WER 是 4.63。我们希望,pruned RNN-T 的开源,能够助力 RNN-T 在生产环境中的使用,缩短模型训练所需的时间,简化端到端模型的部署,为企业节约成本。原创 2024-05-29 01:07:00 · 79 阅读 · 0 评论 -
ASR-端对端模型04:RNNT-SLP/Stateless【Rnn-T的预测网络中不用RNN层】【预测网络的最大作用似乎是阻止输出重复的建模单元,即可以控制<blank>标签的预测概率】
当文本-语音平行语料规模较大时,RNN-Transducer(RNNT)显著优于传统语音识别模型。但是对于低资源语言,RNNT经常会过拟合,并且不像传统ASR系统,无法利用额外的大规模文本语料。RNNT中的预测网络(prediction network)一般被认为类似于传统ASR模型的语言模型(Language Model,LM),但通过实验发现,使用文本语料预训练预测网络并不能带来提升。原创 2024-05-29 01:07:15 · 73 阅读 · 0 评论 -
k2/rnnt_loss.py-第二版
# Copyright 2021 Xiaomi Corp. (author: Daniel Povey, Wei Kang)## See ../../../LICENSE for clarification regarding multiple authors## Licensed under the Apache License, Version 2.0 (the "License");# you may not use this file except in compl原创 2024-06-19 00:18:43 · 41 阅读 · 0 评论 -
k2/rnnt_loss.py-第一版
# Copyright 2021 Xiaomi Corp. (author: Daniel Povey, Wei Kang)## See ../../../LICENSE for clarification regarding multiple authors## Licensed under the Apache License, Version 2.0 (the "License");# you may not use this file except in compl原创 2024-06-18 01:03:49 · 32 阅读 · 0 评论 -
torchaudio.functional.rnnt_loss
【代码】torchaudio.functional.rnnt_loss。原创 2024-06-17 23:10:30 · 37 阅读 · 0 评论 -
k2-rnnt_loss.py
# Copyright 2021 Xiaomi Corp. (author: Daniel Povey, Wei Kang)## See ../../../LICENSE for clarification regarding multiple authors## Licensed under the Apache License, Version 2.0 (the "License");# you may not use this file except in compl原创 2024-06-16 22:38:14 · 23 阅读 · 0 评论 -
ASR测试方法---字错率(WER)、句错率(SER)统计
HTK工具,HTK(HMM Toolkit)一款基于HMM模型(隐马尔可夫模型)的语音处理工具,原创 2024-06-06 00:08:30 · 235 阅读 · 0 评论 -
ASR Conformer模型论文及代码分析
Conformer是Google在2020年提出的语音识别模型,基于Transformer改进而来,主要的改进点在于Transformer在提取长序列依赖的时候更有效,而卷积则擅长提取局部特征,因此将卷积应用于Transformer的Encoder层,同时提升模型在长期序列和局部特征上的效果,实际证明,该方法确实有效,在当时的LibriSpeech测试集上取得了最好的效果。原创 2024-05-29 01:06:47 · 273 阅读 · 0 评论 -
新一代Kaldi技术总结
根据lattice中不同通路的产生的时延,对RNN-T的log-probability lattice进行简单的修正,让模型更倾向于学习时延更短的通路。在该项工作中我们在 GPU 上实现了高效的 FSA 解码,为此我们对 RNN-T 做了一些改造,首先我们在 RNN-T 中使用了无状态的 decoder 网络,使用有限的left context;知识蒸馏是常见的提升模型表现的办法。该办法能够在几乎不影响知识蒸馏的效果的前提下,实现对教师标签上百倍的压缩,有效的解决了传统知识蒸馏办法在大数据集下面临的困境。原创 2024-05-29 01:06:27 · 84 阅读 · 0 评论 -
INTERSPEECH 2022论文解读|Paraformer: 高识别率、高计算效率的单轮非自回归端到端语音识别模型
计算复杂度与迭代轮数有关(通常小于目标文字个数),相比于自回归模型,计算复杂度有所下降,但是解码需要多轮迭代的特性,限制了其在工业生产中的应用。对于单轮非自回归模型,现有工作往往聚焦于如何更加准确的预测目标文字个数,如较为典型的 Mask CTC[3],采用 CTC 预测输出文字个数,尽管如此,考虑到现实应用中,语速、口音、静音以及噪声等因素的影响,如何准确的预测目标文字个数以及抽取目标文字对应的声学隐变量仍然是一个比较大的挑战。,计算复杂度与目标文字个数无关,进而极大的提高了解码效率。原创 2024-05-29 01:06:17 · 140 阅读 · 0 评论 -
编辑距离与字符错误率CER
在场景中,字符错误率(Character Error Rate,CER)是衡量语音识别效果的一个重要指标。下文将介绍CER的原理,并且给出python实现的代码。原创 2024-05-29 01:06:06 · 59 阅读 · 0 评论 -
语音版语言模型【Audio LLM】
In this repository, we survey three crucial areas: (1) representation learning, (2) neural codec, and (3) language models that contribute to speech/audio large language models.1.⚡Speech Representation Models:These models focus on learning structural sp原创 2024-05-21 02:22:42 · 202 阅读 · 0 评论 -
语音识别:经典模型【LAS、CTC,RNA,RNN-T、Neural Transducer,MoChA】
Text: a sequence of Token 长度:N,总种类数量:V。Sound: vectors sequence 长度:T,维度:d。语音模型:即将 sound 转为 text。原创 2024-05-21 00:36:11 · 139 阅读 · 0 评论 -
ASR-详解CTC(Connectionist Temporal Classification)
在语音识别中,我们的数据集是音频文件和其对应的文本,不幸的是,音频文件和文本很难再单词的单位上对齐。除了语言识别,在OCR,机器翻译中,都存在类似的Sequence to Sequence结构,同样也需要在预处理操作时进行对齐,但是这种对齐有时候是非常困难的。如果不使用对齐而直接训练模型时,由于人的语速的不同,或者字符间距离的不同,导致模型很难收敛。原创 2024-05-13 23:25:52 · 117 阅读 · 0 评论 -
细数语音识别中的几个former
前者依赖人的经验总结,而人的经验必然有很多遗漏是粗糙的。EfficientConformer结构如下所示,它将原始的Conformer blocks分解为三步,前两个步在N个Conformer Block之后叠加Downsampling Block,沿着时间维度进行下采样;Conformer结构(左)和Squeezeformer(右)结构包括用于采样率下采样和上采样的Temporal U-Net结构,仅使用层后归一化的标准transformer风格块结构,以及深度可分离的子采样层。它由两个平行的分支组成。原创 2024-05-12 22:44:43 · 50 阅读 · 0 评论 -
Zipformer 模型解析
值得注意的是,当我们在 8 个 80G NVIDIA Tesla A100 GPU 上训练 170 epoch,Zipformer-L 取得了 2.00%/4.38% 的 WER,这是我们了解到的迄今为止第一个和 Conformer 原文结果相当的模型。在每个步骤 𝑡,Adam 计算参数梯度 𝑔𝑡=∇𝜃𝑓(𝜃𝑡−1),并更新梯度的一阶动量 𝑚𝑡=𝛽1⋅𝑚𝑡−1+(1−𝛽1)⋅𝑔𝑡 和二阶动量 𝑣𝑡=𝛽2⋅𝑣𝑡−1+(1−𝛽2)⋅𝑔𝑡2,此处, 𝛽1,𝛽2∈[0,1) 表示控制动量更新的系数。原创 2024-05-12 22:14:19 · 143 阅读 · 0 评论 -
【超详细教程】GPT-SoVITs从零开始训练声音克隆教程(主要以云端AutoDL部署为例)
近日,RVC变声器的创始人(GitHub昵称为RVC-Boss)与AI音色转换技术专家Rcell合作,共同开发并开源了一款创新的跨语言音色克隆工具——GPT-SoVITS。这个项目在互联网上迅速获得了广泛关注和好评,众多业界大佬和知名博主都对其给予了推荐。自项目上线以来,短短两天内,它在GitHub上的Star数就达到了1.4k,而现在这个数字已经飙升至6.5k。GPT-SoVITS的开发历时半年,期间RVC-Boss和Rcell面临了诸多挑战。原创 2024-05-03 14:32:08 · 594 阅读 · 0 评论 -
举世无双语音合成系统 VITS 发展历程(2024.3 PAVITS)
简介:一个快速和强大的zero-shot语音合成器的文本到语音(TTS)和语音转换(VC);对于文本到语音,采用了文本到向量框架,生成文本表示和韵律提示,文本表示由一个自监督的语音表示和F0表示组成。论文:Lightweight and High-Fidelity End-to-End Text-to-Speech with Multi-Band Generation and Inverse Short-Time Fourier Transform。可以利用自我监督的语音来适应新的说话人而没有标注。原创 2024-04-28 12:13:16 · 322 阅读 · 0 评论 -
语音合成:Tacotron详解【端到端语音合成模型】【与传统语音合成相比,它没有复杂的语音学和声学特征模块,而是仅用<文本序列,语音声谱>配对数据集对神经网络进行训练,因此简化了很多流程】
Tacotron模型是首个真正意义上的端到端TTS深度神经网络模型。与传统语音合成相比,它没有复杂的语音学和声学特征模块,而是仅用配对数据集对神经网络进行训练,因此简化了很多流程。然后Tacotron使用Griffin-Lim算法对网络预测的幅度谱进行相位估计,再接一个短时傅里叶(Short-Time Fourier Transform,STFT)逆变换,实现端到端语音合成的功能。Tacotron的总体架构如下图:参考资料:Tacotron以及Tacotron2详解语音合成...原创 2022-06-27 00:41:08 · 1780 阅读 · 1 评论 -
Kaldi简介【开源语音识别工具】
Kaldi架构如所示,最上面是外部的工具,包括用于线性代数库BLAS/LAPACK和我们前面介绍过的OpenFst。中间是Kaldi的库,包括HMM和GMM等代码,下面是编译出来的可执行程序,最下面则是一下脚本,用于实现语音识别的不同步骤(比如特征提取,比如训练单因子模型等等)。Kaldi是当前最流行的开源语音识别工具(Toolkit),它使用WFST来实现解码算法。Kaldi的主要代码是C++编写,在此之上使用bash和 python 脚本做了一些工具。...原创 2022-08-12 13:21:00 · 2485 阅读 · 1 评论 -
自动语音识别(ASR):研究综述【传统语音识别:基于贝叶斯公式,对联合概率P(X|W)·P(W)进行建模(语音识别结果=声学模型×语言模型)】【端到端语音识别:直接对条件概率 P(W|X)进行建模 】
一、传统语音识别基本原理(基于贝叶斯公式)设一段语音信号经过特征提取得到特征向量序列为 X=[x1, x2, …, xN], 其中 xi 是一帧的特征向量, i=1, 2, …,N, N 为特征向量的数目. 该段语音对应的文本序列设为 W=[w1, w2, …, wM], 其中 wi 为基本组成单元, 如音素、单词、字符, i=1, 2, …, M, M 为文本序列的维度. 从贝叶斯角度, 语音识别的目标就是从所有可能产生特征向量X的文本序列中找到概率最大的W*, 可以用公式表示为式 (1) 优化问题:原创 2022-03-09 00:16:56 · 7291 阅读 · 1 评论 -
语音识别的未来已来:深入了解faster-whisper的突破性进展【高精度语音识别模型,完全免费开源】
faster-whisper的核心优势在于其能够在保持原有模型准确度的同时,大幅提升处理速度,这使得它在处理大规模语音数据时更加高效。例如,在使用Large-v2模型和GPU进行13分钟音频的转录测试中,faster-whisper仅需54秒,而原始Whisper模型需要4分30秒。这一显著的性能提升,意味着在实际应用中,faster-whisper能够更快地处理大量数据,特别是在需要实时或近实时语音识别的场景中。例如,在客户服务中,它可以用于实时语音转文字,提高响应速度和服务质量。原创 2024-01-13 22:53:22 · 2632 阅读 · 1 评论 -
西工大 ASLP 实验室在 WeNet 中开源基于 CPPN 的神经网络热词增强语音识别方案
之前的神经网络热词增强研究大多探索在如 RNNT 等 ASR 模型上实现或提升热词增强的效果,缺少在 AED 模型上有效的纯神经网络热词增强方法。因此,我们最初的动机就是寻找 AED 模型上有效的神经网络热词增强方案,并且由于我们使用 WeNet 框架进行实验,基于 attention rescore 解码依靠 CTC 后验的特点,我们希望能够在 Encoder 部分就能进行神经网络热词增强。原创 2024-01-26 00:49:06 · 970 阅读 · 0 评论 -
WeNet 热词增强 2.0 强势来袭
继《WeNet 更新:支持热词增强》两年后,WeNet 近期更新了热词增强 2.0。本次更新内容是使用 AC 自动机 (Aho-Corasick automaton) 对热词进行构图,解决热词之间存在的重叠问题[1]。早在 2022 年 5 月份,@victor45664 就在 Github 上 Pull Request 了相关的代码实现[2](非 OpenFST 版本)。巧的是,当时 WeNet 也正在开发 OpenFST 版本的 AC 自动机热词增强。原创 2024-01-26 00:50:10 · 1014 阅读 · 0 评论 -
WeNet 更新:支持热词增强
在语音识别的实际应用中,对于常用的词汇识别效果比较好,但是对于一些特有的人名、歌名、地名或者某个领域的专有词汇,例如人名、歌名、地名以及语音识别专业词汇,可能存在识别准确率不高的情况。对于这些专有词汇,通过在 WeNet 中使用热词增强方案,添加热词可以显著提升识别的准确率。近期,WeNet 的更新支持了两种解码器上热词增强,包括 CTC Prefix Beam Search 和 WFST Beam Search。原创 2024-01-26 00:51:17 · 1114 阅读 · 0 评论 -
linux 查看显卡(NVIDIA)的算力
2.然后再到官网(https://developer.nvidia.com/cuda-gpus)进行查看。可以修改编译文件中配置,让模型更好地运用显卡资源。比如我会修改darknet的配置文件。1.先通过nvidia-smi命令查看显卡版本,比如我的是3090。NVIDIA官网给出了各型号显卡的算力,原创 2024-01-08 02:05:37 · 1302 阅读 · 0 评论 -
AI编译器技术剖析(一)-概述
针对用户代码所产生的IR往往可以映射成多种不同的硬件算子,但是这些不同硬件算子的执行效率往往有很大差别,如何根据前端IR选择出最高效的算子,是算子选择的核心问题。编译优化意在解决编译生成的中间表示的低效性,使得代码的长度变短,编译与运行的时间减少,执行期间处理器的能耗变低。AI编译器后端的主要职责是对前端下发的IR做进一步的计算图优化,让其更加贴合硬件,并为IR中的计算节点选择在硬件上执行的算子,然后为每个算子的输入输出分配硬件内存,最终生成一个可以在硬件上执行的任务序列,其总体架构如下图所示。原创 2024-01-07 20:07:15 · 1074 阅读 · 0 评论