- 博客(156)
- 资源 (2)
- 问答 (6)
- 收藏
- 关注
原创 FunASR推理太慢?如何加速它,使用TensorRT加速模型推理,速度比onnxruntime快多少?
本篇文章对比测试了使用TensorRT和onnxruntime推理阿里开源的SenseVoiceSmall模型,从结果来看使用TensorRT推理比onnxruntime推理快了很多,并且准确率不变。这篇文章解决了FunASR推理模型速度慢的问题,可以使用TensorRT加速推理。
2026-01-08 03:48:36
345
原创 GPU版本FunASR推理速度测试 | 源码编译GPU版本的FunASR测试转写速度
这篇文章主要测试了通过源码编译FunASR的GPU版本语音识别的速度和资源消耗情况。文章真实记录了在单卡和多卡情况下的GPU版本的FunASR的性能情况。
2026-01-04 02:12:33
300
原创 CPU本地内网语音识别与使用CUDA加速推理之间的对比测试 | 阿里开源的SenseVoice内网部署测试
这篇文章主要记录测试开源的SenseVocieSmall模型使用Sherpa-onnx框架后端采用onnxruntime和onnxruntime-gpu推理的速度以及资源占用情况。本次测试使用的Java编写的demo测试,对18秒音频开启7个客户端同时发送100次转写请求,分别记录在纯CPU和使用CUDA加速情况下的转写RTF值。
2025-12-30 05:16:28
331
原创 FunASR推理SenesVoiceSmall太慢如何提升速度 | 使用TensorRT提升SenseVoice转写速度 | TensorRT竟然比OnnxRuntime快这么多
本文对比测试了TensorRT和OnnxRuntime对SenseVoiceSmall语音模型的推理性能。测试环境采用RTX 3090Ti显卡、i7-14700KF处理器和64GB内存。使用18秒音频样本进行10次测试,TensorRT平均耗时378毫秒,OnnxRuntime平均472毫秒,显示TensorRT快约96毫秒。文章包含详细的测试数据和运行截图,展示了两种框架的实际性能差异。更多技术内容可通过作者博客或公众号获取。
2025-12-27 08:09:48
253
原创 阿里最新开源的语音识别模型Fun-ASR-Nano深度评测
Fun-ASR-Nano-2512 是由阿里巴巴旗下的通义实验室开源的语音识别模型,通义实验室之前还开源了 SenseVoiceSmall 和 Paraformer 模型,这篇文章使用三种模型对多种方言,以及真实电话录音进行对比测试,在开源的数据集中评估的结果官方已经给出,这里使用自己的数据测试。
2025-12-18 06:08:52
1448
原创 基于FunASR开发的可私有化部署的语音转文字接口 | FunASR接口开发 | 语音识别接口私有化部署
本文介绍了基于阿里开源FunASR开发的语音识别API项目FunASR_API。该项目支持Linux、MacOS和Windows系统,通过FastAPI提供HTTP接口,数据存储于MySQL,可被Java、C++、PHP等多种语言调用。文档详细说明了环境配置步骤,包括安装显卡驱动、CUDA、FFmpeg和Miniconda,创建Python虚拟环境并安装依赖库。项目提供三个核心接口:/asr用于直接音频转写,/trans/file和/trans/audio_url支持文件或URL转写。
2025-12-18 02:00:02
1411
原创 记录训练呼叫中心专有ASR模型过程
文章摘要 本文介绍了针对呼叫中心通话场景优化的语音识别模型训练方法。由于通用模型对8k采样率、高噪音的通话录音识别效果不佳,作者采用超过200小时的数据集(包含10万条弱标注和6万条强标注数据)进行混合训练。数据准备阶段提供了两种自动打标方法:使用开源ASR模型或商用API(如讯飞极速版语音识别大模型)。文中详细展示了基于FunASR工具的开源模型自动打标代码实现,包括音频处理、分段合并和Excel表格生成等功能。该方法旨在提升通话场景下的语音转写准确率。
2025-12-03 00:11:36
1064
原创 基于大模型的本地知识库问答系统部署文档
本篇文章主要介绍了如何在服务器中部署基于AI大模型的本地知识库问答系统,利用RAG技术解决大模型无法回答私有化知识内容的问题。
2025-11-19 00:39:55
1007
原创 内网私有化分布式集群部署语音识别接口
文章摘要 本项目开发了一套离线ASR(自动语音识别)接口系统,面向金融、政府机构等对数据安全要求高的场景,避免公网传输风险。系统采用分布式架构,核心基于Celery异步框架和Redis消息队列实现生产者-消费者模型,支持多服务器多显卡并行处理。技术栈包含FastAPI接口层、MinIO对象存储集成,具备以下特点:1. 完全内网部署保障数据安全;2. 可替代云端ASR服务降低成本;3. 分布式扩展能力支持大规模语音识别。系统通过任务队列机制实现高效转写,并提供10分钟的结果缓存时效管理,适用于对数据隐私和成本
2025-11-03 18:32:48
1145
原创 FunASR的Java实现Paraformer实时语音识别 | 一款无需联网的本地实时字幕软件
摘要:本文介绍了一款基于JavaFX开发的实时语音识别软件,专为解决直播、在线会议等场景中缺乏字幕的问题而设计。该软件采用阿里巴巴达摩院开源的Paraformer-Streaming流式模型,支持ONNX格式推理,可在普通CPU上高效运行,并支持int8量化以降低资源占用。主要功能包括:透明背景显示、字体大小/颜色设置、多屏适配等。软件针对Windows系统打包成exe程序,也可根据需求适配Linux服务器。适用于听力障碍人群、人机交互及智能呼叫中心等场景。
2025-09-05 17:59:14
584
原创 基于FunASR实现的可区分说话人的录音转写系统
摘要:本文介绍了一个基于FunASR开发的智能语音转写系统,能够同时实现语音识别和说话人区分功能。系统支持在有无显卡环境下部署(推荐NVIDIA显卡),具备用户隔离、声纹注册、热词自定义、结果修正等特性,其中声纹注册和管理员审批确保了系统安全性。测试显示在3090Ti显卡上19分钟音频处理时间不足1分钟。系统适用于会议录音、访谈等场景,结合大模型还能实现内容摘要功能。项目已在B站发布演示视频,支持内网部署,为需要精确识别说话人的语音转写场景提供了实用解决方案。
2025-08-12 18:57:22
1183
3
原创 TriTon_GPU部署SenseVoiceSmall接口 | 提升SenseVoiceSmall接口转写速度 | TriTon_GPU方式部署FunASR | 可内网使用的高并发转写速度极快的ASR
本文主要讲述了如何在服务器Linux中构建高并发及快速转写的ASR接口,基于阿里开源的FunASR中的triton_gpu来推理SenseVoiceSmall模型。
2025-08-05 20:19:23
1199
原创 客家话ASR模型训练 | 如何让FunASR可以识别方言 | SenseVoice方言模型 | SenseVoice客家话模型 | Hakka ASR
本文介绍了使用SenseVoiceSmall模型在3090Ti上训练客家话ASR系统的完整流程。主要内容包括:1)数据来源及处理,从抖音、YouTube等平台采集2231条数据,利用开源工具进行字幕生成和音频切分;2)音频格式统一为16kHz单声道WAV格式;3)详细说明如何生成训练所需的jsonl文件;4)训练配置调整和启动方法;5)实时监控训练日志和可视化loss曲线的方法。整个过程涵盖了从数据准备到模型训练的关键步骤,为方言语音识别项目提供了实用指导。
2025-07-22 18:22:06
1280
原创 如何使得SenseVoiceSmall具备识别方言的能力 | SenseVoiceSmall方言模型训练 | SenseVoiceSmall客家话模型 | 客家话ASR模型
本文介绍了基于阿里SenseVoiceSmall模型训练的客家话语音识别系统。研究针对虚拟数字人无法识别方言的问题,收集了2231条梅州、惠州和粤西客家话数据(含网络采集和自行录制),通过微调训练提升了模型在客家话识别上的表现。实验对比显示,训练后模型识别准确率显著优于原模型(如"你好大家好"识别正确率提升明显)。作者指出当前模型对非训练区域的客家话识别效果有限,建议至少使用200小时数据达到工业级水平,并欢迎其他方言训练需求合作。项目提供了Python测试代码和演示视频。
2025-07-21 12:50:25
1185
原创 FunASR四川话方言语音识别模型部署详细过程 | 方言ASR部署过程 | Paraformer方言模型训练
这篇文章主要讲述了如何利用阿里开源的FunASR工具来训练一个方言ASR模型。其中讲到了如何准备数据,如何设置参数,如何训练,如何评估。
2025-07-17 16:18:17
2584
原创 如何让FunASR可以识别四川话 | 四川话ASR | 开源的四川话ASR
主要介绍如何使用FunASR中的Paraformer识别四川话,可以把音频中的四川话转写为对应的文字。
2025-07-10 18:20:38
1676
原创 CentOS7中源码编译安装freeswitch
本文详细介绍了在CentOS系统上编译安装FreeSWITCH的完整步骤。主要内容包括: 安装系统依赖库和工具 编译安装CMake 3.23.0 安装libks和signalwire-c等支持库 编译安装x264视频编码库 安装mod_av模块所需的libav库 最终编译安装FreeSWITCH 1.10.2 配置环境变量和软链接 启动/停止FreeSWITCH的方法 整个过程涵盖了从基础依赖安装到最终服务的配置,为搭建FreeSWITCH VoIP服务器提供了完整的指导方案。
2025-06-22 17:40:48
331
原创 CentOS7.9部署FunASR实时语音识别接口 | 部署商用级别实时语音识别接口FunASR
这篇文章主要讲解如何在生产环境的CentOS7.9中部署一套实时语音识别接口供其它项目调用,可以解决在内网中部署实时语音识别接口问题。
2025-05-10 18:49:11
1472
原创 SenseVoice模型微调 | 如何提升语音识别在特定领域内识别的准确率
无论是开源的ASR还是收费的ASR都面临着一个问题,就是识别专有名词不准的问题,比如我这里可以基于阿里巴巴开源的FunASR项目中的SenseVoiceSmall模型做微调训练,使得可以准确识别特定领域内的名词,从而提升整体的准确率。
2025-04-19 06:01:58
2160
原创 一个基于OpenAI Whisper开发的音视频字幕文件生成工具
该工具可以把音视频转写为文字内容和包含时间戳的srt字幕文件,可以用于生成视频字幕文件,适用于自媒体制作视频字幕。
2025-04-15 04:42:14
2098
1
原创 解决SenseVoice识别专业名词不准问题 | Paraformer和SenseVoice模型训练
这是一个国内大厂开源的ASR模型,这篇文章主要讲述如何微调SenseVoice和Paraformer模型使得可以准确识别专业名词。
2025-04-12 05:51:24
1059
1
原创 部署docker版本的FunASR
这是阿里开源的ASR模型,支持实时语音识别,可以用于外呼系统,智能呼叫中心系统,对通话录音进行实时转写。可用于在线会议字幕实时生成,直播实时字幕生成。
2025-04-12 05:35:56
2169
原创 Paraformer和SenseVoice模型训练
针对某些新的词汇,开源的ASR模型都无法识别,那么这个时候,我们就需要使用专业词汇进行微调了,这篇文章将会告诉你如果微调ASR模型,提升模型对专业名词识别的准确率。
2025-04-04 06:34:04
999
1
原创 ai说话人分离 | 基于语音大模型进行说话人拆分
我们在处理一段长音频时包含了多个人的声音,我们想要提取其中某个人的声音,那么我们该如何办呢?如果你会音频处理软件,比如AU,那么你可以使用它来处理,但是这要人工处理几条音频还能接受,如果是处理成千上万条音频呢,我们就必须要借助计算机来处理了。那么本篇文章主要记录我开发的一款可以根据音频中不同的说话人的声音来切分音频片段的软件。
2025-02-28 21:44:55
3855
5
原创 根据音频中的不同讲述人声音进行分离音频 | 基于ai的说话人声音分离项目
基于funasr实现的可以分离一条录音中不同的说话人的声音,并且支持进行合成相同说话人的声音为一条音频,同时支持视频切片处理。
2025-02-22 23:06:15
4336
原创 服务器中部署大模型DeepSeek-R1 | 本地部署DeepSeek-R1大模型 | deepseek-r1部署详细教程
本篇文章主要讲述如何在本地电脑安装部署国产大模型deepseek-r1,通过ollama方式轻松部署deepseek-r1大模型,通过chatbox方式在本地访问deepseek-r1大模型。同时支持在服务器上部署国产大模型deepseek-r1,支持在CentOS或者Ubuntu中部署大模型deepseek r1大模型。
2025-02-14 18:13:18
1016
原创 funasr训练模型报错TypeError: device.__init__() missing 1 required positional argument: ‘device‘解决方法
报错TypeError: device.init() missing 1 required positional argument: 'device’解决方法
2025-02-11 15:58:43
1159
原创 解决安装pynini和WeTextProcessing报错问题
这篇文章主要记录自己如何解决pynini和WeTextProcessing依赖报错问题
2025-01-01 05:37:30
6679
2
原创 基于3D-Speaker进行区分说话人项目搭建过程报错记录 | 通话录音说话人区分以及语音识别 | 声纹识别以及语音识别 | pyannote-audio
本篇文章主要讲述使用3d-speaker进行说话人区分,以及如何优化目前没法区分说话人的情况,通过vad算法对音频进行片段化计算每个片段的声纹特征值向量,然后通过无监督聚类算法实现声纹特征值相似的音频片段聚类。
2024-12-25 02:19:21
2027
原创 开源的说话人分离项目 | 可以对指定的音频分离不同的说话人 | 通话录音中分离不同的说话人
这个程序适合个人 PC 端使用,如果需要服务端接口,支持多路并发,支持大规模集群部署,欢迎联系我。安装 torch,需要根据你电脑情况安装不同的版本,具体可以到 torch 中复制命令安装。安装 ffmpeg,可以到 ffmpeg 官方地址中下载可执行程序,配置环境变量。个人技术博客2:https://blog.lukeewin.top。个人技术博客1:https://lukeewin.top。如果使用 GPU 来运行,需要安装好 CUDA。本地可运行的说话人拆分 | 说话人分离。
2024-11-15 00:20:11
2146
原创 训练实时语音识别Paraformer模型
最近有一位研二的学生添加我的微信,付费让我给她训练模型。市面上的语音识别模型基本上都是通用识别模型,对于特定领域的识别字错率太高了。比如专门针对航空领域的语音识别就不尽如意,因为在航空领域中有一些航空的专有名词,训练模型的时候未必训练到,并且航空领域中的读数字的读音也和我们日常中的不一样,所以我们想要让模型识别的字错率更低,那么就很有必要对市面上开源的模型进行训练。这里由那位研究生提供了条音频数据,音频采样率是。数据分为训练集和验证集,这里使用的数据作为验证集,也就是使用条数据作为验证集。数据的格式要求如下
2024-11-10 20:05:35
2793
6
原创 MeloTTS搭建教程
最近有公司找到我,咨询我有没有好用的开源TTS,并且要求速度要极快,要求支持流式,主要用于对接智能呼叫中心系统。TTS就犹如呼叫中心系统的嘴巴,如果响应时间满了,就会遭到用户的嫌弃。于是有了在网上搜索到了开源的一款TTS,该TTS由于是基于MIT协议开源的,允许开发者自由使用、复制、修改、合并、发布和分发软件,包括用于商业目的。商用的TTS虽然方便,但是要支付昂贵的费用,因此此研究,用于市面上开源的TTS代替商用的TTS,从而达到节省公司开支的目录。更多详细的内容可以访问或者。
2024-11-10 19:58:36
2076
5
数据库连接工具Navicat
2020-09-18
一台电脑能同时安装多个不同版本的idea吗?
2022-07-31
请问这两家公司应该如何选择?
2022-07-16
公司录用没有发offer?
2022-07-14
同时有两家公司录用应该怎么选择?
2022-07-14
调用函数执行ajax发送post请求时,页面卡住,点击不动
2022-04-27
tomcat中的所有servlet项目无法访问,没有使用开发工具idea和eclipse
2021-03-18
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅