AI语音
文章平均质量分 69
基于机器学习的语音算法分析
Pika在线
饿死也不打工
【语音识别】:www.funsound.cn
【算法合作】:6056869602@qq.com
展开
-
导出 Whisper 模型到 ONNX
在语音识别领域,Whisper 模型因其出色的性能和灵活性备受关注。为了在更多平台和环境中部署 Whisper 模型,导出为 ONNX 格式是一个有效的途径。ONNX(Open Neural Network Exchange)是一个开放格式,支持不同的深度学习框架之间的模型互操作性。本指南将详细介绍如何将 Whisper 模型导出为 ONNX 格式,并提供测试模型的步骤。本节描述了如何将 Whisper 模型导出为 ONNX 格式。原创 2024-06-12 14:14:27 · 1287 阅读 · 0 评论 -
Funsound 跨语言语音翻译
对任意语言的音视频识别得到目标语言文字结果,支持100种语言互译,视频支持在线添加字幕。实现原理由whisper进行多语言语音识别,ChatGPT对识别结果进行润色翻译。原创 2024-09-27 14:01:25 · 298 阅读 · 0 评论 -
Funsound: 快速为你的视频加上字幕
是基于阿里达摩院funasr开发的中文语音识别工具,其paraformer非自回归解码速度超快,同时预训练模型识别精度业界领先。本文将简要介绍funsound下如何快速为你的视频添加字幕,十分简单方便。原创 2024-09-03 14:09:10 · 292 阅读 · 0 评论 -
Funsound语音识别技术之 语音识别多路并发转写
本文主要介绍一种简单的多路语音识别转写部署方案,基于多线程开发实现后台同时转写多个音频文件,这里给出简易实现思路,具体构建服务端/客户端 离线语音转写请参考Funsound工具包代码,本文以部署多个whisper语音转写引擎为例。原创 2024-08-21 18:44:35 · 626 阅读 · 0 评论 -
Funsound语音识别技术之 基于paraformer的自定义命令(唤醒)词识别
Paraformer在声学后验上通过greedy search得到语音识别结果,对于自定义命令(唤醒)词识别,肯定还得走asr模型。对此我们可以在paraformer上为每个命令词构建模板进行命令匹配,最终结果远远优于科大讯飞语音控制sdk结果。原创 2024-08-20 16:45:34 · 601 阅读 · 0 评论 -
基于TTS模型快速生成大规模语音数据教程
Worker类是整个代码的核心部分,每个Worker都是一个独立的进程,用于处理文本到语音的转换任务。在__init__方法中,我们初始化了Workerwid: worker 的 ID,用于标识不同的进程。model_id: 模型的 ID,这里使用的是。tasks: 一个Queue对象,用于存储需要处理的任务。outdir: 输出目录,用于存储生成的音频文件。speaker: 声音库,内置了多个情感发音的选项。run方法是Worker的核心逻辑所在,每个Worker。原创 2024-08-08 17:22:17 · 435 阅读 · 0 评论 -
基于KV Cache构建流式帧级别Transformer实现自回归解码
流式帧级别Transformer是一种特殊的Transformer变体,设计用于流式输入处理。这种模型可以在序列的每个时间步处理输入,并且利用KV Cache存储历史的键和值,避免重复计算,从而提高效率。自回归解码则意味着模型在生成下一个输出时依赖于之前的输出。原创 2024-07-10 16:41:55 · 831 阅读 · 0 评论 -
从音频中提取MFCC特征的过程
在语音信号处理和语音识别领域,梅尔频率倒谱系数(MFCC)是最常用的特征之一。本文将逐步介绍如何从音频中提取MFCC特征,并在每个步骤中进行可视化展示。原创 2024-06-26 14:26:41 · 1637 阅读 · 0 评论 -
深度判别特征学习在口音识别中的应用
使用深度学习框架进行口音识别是一项与深度说话人识别相似的工作,它们都期望为输入语音提供可识别的表示。相比于说话人识别网络学习的个体级特征,深度口音识别提出了一个更具挑战性的任务,即为说话人创建群体级口音特征。本文中,我们借鉴并改进了深度说话人识别框架来识别口音,具体而言,我们采用卷积循环神经网络作为前端编码器,并使用循环神经网络整合局部特征以生成语句级别的口音表示。原创 2024-06-19 14:30:52 · 1535 阅读 · 0 评论 -
whisper 模型源码解读
这篇教程介绍了语音识别自回归解码过程,包括音频预处理、音频编码、文本解码和生成文本序列的步骤。具体步骤展示了如何将Mel谱图输入到音频编码器中,生成音频特征,并通过自回归方式逐步生成对应的文本标记序列。最终,通过示例代码演示了从音频输入到文本输出的完整过程。原创 2024-06-16 21:14:21 · 645 阅读 · 0 评论 -
Whisper语音识别 -- 自回归解码分析
whisper的自回归解码分析原创 2024-06-13 20:51:49 · 751 阅读 · 0 评论 -
TF-IDF算法教程
TF-IDF(Term Frequency-Inverse Document Frequency)是一种常用于文本分析的技术,主要用于评估一个词语在一个文档中的重要程度。本文详细讲解了TF-IDF的基本原理、公式,并通过具体实例分析了词频(TF)和逆文档频率(IDF)的计算过程。通过实例数据展示了如何计算每个词语的TF-IDF值,进而衡量其在文档中的重要性。文章还讨论了TF-IDF的优缺点及其在信息检索、文本分类和文本聚类中的应用场景。最后,提供了使用Python实现TF-IDF算法的示例代码,帮助读者在实原创 2024-06-13 22:53:19 · 846 阅读 · 0 评论 -
语音研究方向学术和工作资源清单
语音专业同学请看这原创 2024-06-11 08:29:48 · 793 阅读 · 0 评论 -
使用Python实现GLM解码器的示例(带有Tensor Shape标注)
非自回归解码原创 2024-06-06 17:34:01 · 367 阅读 · 0 评论 -
FunSound: 基于FunASR-onnx 的高精度离线转写
基于funasr-onnx的转写服务网站搭建原创 2024-05-25 01:39:53 · 830 阅读 · 0 评论 -
python手动搭建transformer,并实现自回归推理
手动实现transformer自回归原创 2024-06-06 10:25:00 · 883 阅读 · 0 评论 -
kaldi入门:搭建第一个中文ASR (AISHELL-1)
请在linux环境下开展实验,非常建议熟悉 awk, grep, sed, cut, 等shell 命令快速处理文本,以及学会使用python脚本处理数据等.这里我们根据发音词典来定义我们的声学单元,在kaidi中对声学单元的表述需要以下四个文件:其中简单介绍如下:(1)意义:非静音音素集样例:(2)意义:静音音素集样例:(3)意义:指定静音音素集样例:(3)意义:用于三音素聚类问题。原创 2020-08-03 15:25:45 · 10661 阅读 · 12 评论 -
Paraformer解读(1)基于self-attention和dfsmn的encoder
paraformer的encoder原理原创 2024-06-05 00:41:21 · 301 阅读 · 0 评论 -
基于Paraformer的alpha-token强制对齐
CIF 作为Parafoemr的核心模块,用于预测字数和生成声学向量,从而实现了单轮非自回归解码。其中字数的预测主要通过encoder输出系数alpha的累计得分,满足通关阈值β=1.0即可产生一个token,其中alpha曲线在一定程度上呈现着vad效果,或者依次进行断句。cif的时间戳对齐采用peak(通关方式)得到,这里我们直接尝试alpha-token对齐方式,将识别的token在编码器输出上进行对齐,其中对齐算法采用动态规划。用户可以修改main.py 参数进行试验。原创 2024-05-29 19:56:34 · 472 阅读 · 0 评论