自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Luke Ewin的博客

记录和分享Java学习过程的博客平台

  • 博客(160)
  • 资源 (2)
  • 问答 (6)
  • 收藏
  • 关注

原创 FunASR实时语音识别Websocket接口在Linux服务器中部署教程

本文介绍了如何在Linux系统上部署FunASR实时语音识别接口。FunASR是阿里巴巴开源的支持实时语音识别、说话人区分等功能的高效工具。部署过程以Ubuntu为例,通过Docker镜像快速搭建环境,包含镜像导入、服务启动等关键步骤,并提供了Web端演示方法。文章还提示了云服务器端口开放等注意事项,适用于通话转写、会议记录等场景。文末附有博客链接和视频教程,提供有偿部署服务联系方式。

2026-03-11 16:23:47 325

原创 ASR数据集采集系统 | ASR方言数据集采集系统 | ASR方言数据集采集系统 | 语音识别数据集采集系统

摘要 本文介绍了一个ASR(自动语音识别)数据集采集系统的开发与部署方案。该系统旨在解决传统数据采集过程中音频与文本标签不匹配的问题,通过云端部署实现多人协作采集,提高数据质量和采集效率。系统采用前后端分离架构:后端使用SpringBoot(JDK21),前端使用Vue,配合Nginx作为Web服务器和反向代理,MySQL存储数据并支持Excel导出。 部署过程详细说明了JDK21、MySQL和Node.js的环境配置方法,包括系统变量设置、MySQL密码修改和前端静态文件生成。

2026-03-10 19:45:58 407

原创 可本地私有化部署可区分说话人的ASR接口 | 返回字级别ASR接口 | 说话人日志语音识别 | 区分说话人语音识别 | FunASR如何区分说话人

FunASR如何区分说话人并语音识别,语音识别,区分角色ASR,开源的可内网部署的ASR

2026-03-04 03:07:30 314

原创 部署DeepSeek-OCR-2

本文介绍了DeepSeek-OCR-2的安装部署流程:1)克隆代码仓库并创建Python3.12.9虚拟环境;2)安装PyTorch 2.6.0、vLLM 0.8.5等依赖,需手动下载flash-attn 2.7.3的whl文件;3)修改config.py配置文件中的模型路径和输入输出路径。文中提供了详细命令和问题解决方法,并附有相关资源链接。作者还提供有偿部署服务,适合遇到部署困难的用户。

2026-01-30 04:25:43 218 1

原创 FunASR推理太慢?如何加速它,使用TensorRT加速模型推理,速度比onnxruntime快多少?

本篇文章对比测试了使用TensorRT和onnxruntime推理阿里开源的SenseVoiceSmall模型,从结果来看使用TensorRT推理比onnxruntime推理快了很多,并且准确率不变。这篇文章解决了FunASR推理模型速度慢的问题,可以使用TensorRT加速推理。

2026-01-08 03:48:36 398

原创 GPU版本FunASR推理速度测试 | 源码编译GPU版本的FunASR测试转写速度

这篇文章主要测试了通过源码编译FunASR的GPU版本语音识别的速度和资源消耗情况。文章真实记录了在单卡和多卡情况下的GPU版本的FunASR的性能情况。

2026-01-04 02:12:33 371 1

原创 CPU本地内网语音识别与使用CUDA加速推理之间的对比测试 | 阿里开源的SenseVoice内网部署测试

这篇文章主要记录测试开源的SenseVocieSmall模型使用Sherpa-onnx框架后端采用onnxruntime和onnxruntime-gpu推理的速度以及资源占用情况。本次测试使用的Java编写的demo测试,对18秒音频开启7个客户端同时发送100次转写请求,分别记录在纯CPU和使用CUDA加速情况下的转写RTF值。

2025-12-30 05:16:28 394

原创 FunASR推理SenesVoiceSmall太慢如何提升速度 | 使用TensorRT提升SenseVoice转写速度 | TensorRT竟然比OnnxRuntime快这么多

本文对比测试了TensorRT和OnnxRuntime对SenseVoiceSmall语音模型的推理性能。测试环境采用RTX 3090Ti显卡、i7-14700KF处理器和64GB内存。使用18秒音频样本进行10次测试,TensorRT平均耗时378毫秒,OnnxRuntime平均472毫秒,显示TensorRT快约96毫秒。文章包含详细的测试数据和运行截图,展示了两种框架的实际性能差异。更多技术内容可通过作者博客或公众号获取。

2025-12-27 08:09:48 312

原创 阿里最新开源的语音识别模型Fun-ASR-Nano深度评测

Fun-ASR-Nano-2512 是由阿里巴巴旗下的通义实验室开源的语音识别模型,通义实验室之前还开源了 SenseVoiceSmall 和 Paraformer 模型,这篇文章使用三种模型对多种方言,以及真实电话录音进行对比测试,在开源的数据集中评估的结果官方已经给出,这里使用自己的数据测试。

2025-12-18 06:08:52 1975

原创 基于FunASR开发的可私有化部署的语音转文字接口 | FunASR接口开发 | 语音识别接口私有化部署

本文介绍了基于阿里开源FunASR开发的语音识别API项目FunASR_API。该项目支持Linux、MacOS和Windows系统,通过FastAPI提供HTTP接口,数据存储于MySQL,可被Java、C++、PHP等多种语言调用。文档详细说明了环境配置步骤,包括安装显卡驱动、CUDA、FFmpeg和Miniconda,创建Python虚拟环境并安装依赖库。项目提供三个核心接口:/asr用于直接音频转写,/trans/file和/trans/audio_url支持文件或URL转写。

2025-12-18 02:00:02 1502

原创 记录训练呼叫中心专有ASR模型过程

文章摘要 本文介绍了针对呼叫中心通话场景优化的语音识别模型训练方法。由于通用模型对8k采样率、高噪音的通话录音识别效果不佳,作者采用超过200小时的数据集(包含10万条弱标注和6万条强标注数据)进行混合训练。数据准备阶段提供了两种自动打标方法:使用开源ASR模型或商用API(如讯飞极速版语音识别大模型)。文中详细展示了基于FunASR工具的开源模型自动打标代码实现,包括音频处理、分段合并和Excel表格生成等功能。该方法旨在提升通话场景下的语音转写准确率。

2025-12-03 00:11:36 1117

原创 基于大模型的本地知识库问答系统部署文档

本篇文章主要介绍了如何在服务器中部署基于AI大模型的本地知识库问答系统,利用RAG技术解决大模型无法回答私有化知识内容的问题。

2025-11-19 00:39:55 1044

原创 定位显卡在主板中的位置

本篇文章主要讲述了如何在多显卡的Linux服务器中找到指定显卡在主板中的位置。

2025-11-06 03:37:41 332

原创 内网私有化分布式集群部署语音识别接口

文章摘要 本项目开发了一套离线ASR(自动语音识别)接口系统,面向金融、政府机构等对数据安全要求高的场景,避免公网传输风险。系统采用分布式架构,核心基于Celery异步框架和Redis消息队列实现生产者-消费者模型,支持多服务器多显卡并行处理。技术栈包含FastAPI接口层、MinIO对象存储集成,具备以下特点:1. 完全内网部署保障数据安全;2. 可替代云端ASR服务降低成本;3. 分布式扩展能力支持大规模语音识别。系统通过任务队列机制实现高效转写,并提供10分钟的结果缓存时效管理,适用于对数据隐私和成本

2025-11-03 18:32:48 1169

原创 FunASR的Java实现Paraformer实时语音识别 | 一款无需联网的本地实时字幕软件

摘要:本文介绍了一款基于JavaFX开发的实时语音识别软件,专为解决直播、在线会议等场景中缺乏字幕的问题而设计。该软件采用阿里巴巴达摩院开源的Paraformer-Streaming流式模型,支持ONNX格式推理,可在普通CPU上高效运行,并支持int8量化以降低资源占用。主要功能包括:透明背景显示、字体大小/颜色设置、多屏适配等。软件针对Windows系统打包成exe程序,也可根据需求适配Linux服务器。适用于听力障碍人群、人机交互及智能呼叫中心等场景。

2025-09-05 17:59:14 627

原创 基于FunASR实现的可区分说话人的录音转写系统

摘要:本文介绍了一个基于FunASR开发的智能语音转写系统,能够同时实现语音识别和说话人区分功能。系统支持在有无显卡环境下部署(推荐NVIDIA显卡),具备用户隔离、声纹注册、热词自定义、结果修正等特性,其中声纹注册和管理员审批确保了系统安全性。测试显示在3090Ti显卡上19分钟音频处理时间不足1分钟。系统适用于会议录音、访谈等场景,结合大模型还能实现内容摘要功能。项目已在B站发布演示视频,支持内网部署,为需要精确识别说话人的语音转写场景提供了实用解决方案。

2025-08-12 18:57:22 1266 3

原创 TriTon_GPU部署SenseVoiceSmall接口 | 提升SenseVoiceSmall接口转写速度 | TriTon_GPU方式部署FunASR | 可内网使用的高并发转写速度极快的ASR

本文主要讲述了如何在服务器Linux中构建高并发及快速转写的ASR接口,基于阿里开源的FunASR中的triton_gpu来推理SenseVoiceSmall模型。

2025-08-05 20:19:23 1248

原创 客家话ASR模型训练 | 如何让FunASR可以识别方言 | SenseVoice方言模型 | SenseVoice客家话模型 | Hakka ASR

本文介绍了使用SenseVoiceSmall模型在3090Ti上训练客家话ASR系统的完整流程。主要内容包括:1)数据来源及处理,从抖音、YouTube等平台采集2231条数据,利用开源工具进行字幕生成和音频切分;2)音频格式统一为16kHz单声道WAV格式;3)详细说明如何生成训练所需的jsonl文件;4)训练配置调整和启动方法;5)实时监控训练日志和可视化loss曲线的方法。整个过程涵盖了从数据准备到模型训练的关键步骤,为方言语音识别项目提供了实用指导。

2025-07-22 18:22:06 1397

原创 如何使得SenseVoiceSmall具备识别方言的能力 | SenseVoiceSmall方言模型训练 | SenseVoiceSmall客家话模型 | 客家话ASR模型

本文介绍了基于阿里SenseVoiceSmall模型训练的客家话语音识别系统。研究针对虚拟数字人无法识别方言的问题,收集了2231条梅州、惠州和粤西客家话数据(含网络采集和自行录制),通过微调训练提升了模型在客家话识别上的表现。实验对比显示,训练后模型识别准确率显著优于原模型(如"你好大家好"识别正确率提升明显)。作者指出当前模型对非训练区域的客家话识别效果有限,建议至少使用200小时数据达到工业级水平,并欢迎其他方言训练需求合作。项目提供了Python测试代码和演示视频。

2025-07-21 12:50:25 1301

原创 FunASR四川话方言语音识别模型部署详细过程 | 方言ASR部署过程 | Paraformer方言模型训练

这篇文章主要讲述了如何利用阿里开源的FunASR工具来训练一个方言ASR模型。其中讲到了如何准备数据,如何设置参数,如何训练,如何评估。

2025-07-17 16:18:17 2814

原创 如何让FunASR可以识别四川话 | 四川话ASR | 开源的四川话ASR

主要介绍如何使用FunASR中的Paraformer识别四川话,可以把音频中的四川话转写为对应的文字。

2025-07-10 18:20:38 1806

原创 PyCharm中提交本地代码到远程代码仓库

本篇文章记录如何把本地代码提交到github中,通过PyCharm工具。

2025-07-03 00:57:57 397

原创 CentOS7中源码编译安装freeswitch

本文详细介绍了在CentOS系统上编译安装FreeSWITCH的完整步骤。主要内容包括: 安装系统依赖库和工具 编译安装CMake 3.23.0 安装libks和signalwire-c等支持库 编译安装x264视频编码库 安装mod_av模块所需的libav库 最终编译安装FreeSWITCH 1.10.2 配置环境变量和软链接 启动/停止FreeSWITCH的方法 整个过程涵盖了从基础依赖安装到最终服务的配置,为搭建FreeSWITCH VoIP服务器提供了完整的指导方案。

2025-06-22 17:40:48 345

原创 CentOS7.9部署FunASR实时语音识别接口 | 部署商用级别实时语音识别接口FunASR

这篇文章主要讲解如何在生产环境的CentOS7.9中部署一套实时语音识别接口供其它项目调用,可以解决在内网中部署实时语音识别接口问题。

2025-05-10 18:49:11 1549

原创 SenseVoice模型微调 | 如何提升语音识别在特定领域内识别的准确率

无论是开源的ASR还是收费的ASR都面临着一个问题,就是识别专有名词不准的问题,比如我这里可以基于阿里巴巴开源的FunASR项目中的SenseVoiceSmall模型做微调训练,使得可以准确识别特定领域内的名词,从而提升整体的准确率。

2025-04-19 06:01:58 2320

原创 一个基于OpenAI Whisper开发的音视频字幕文件生成工具

该工具可以把音视频转写为文字内容和包含时间戳的srt字幕文件,可以用于生成视频字幕文件,适用于自媒体制作视频字幕。

2025-04-15 04:42:14 2247 1

原创 解决SenseVoice识别专业名词不准问题 | Paraformer和SenseVoice模型训练

这是一个国内大厂开源的ASR模型,这篇文章主要讲述如何微调SenseVoice和Paraformer模型使得可以准确识别专业名词。

2025-04-12 05:51:24 1111 1

原创 Ubuntu中部署MeloTTS

这是一个支持中英混合合成的TTS。

2025-04-12 05:38:24 657 1

原创 部署docker版本的FunASR

这是阿里开源的ASR模型,支持实时语音识别,可以用于外呼系统,智能呼叫中心系统,对通话录音进行实时转写。可用于在线会议字幕实时生成,直播实时字幕生成。

2025-04-12 05:35:56 2328

原创 3D-Speaker模型微调

这是一个由阿里开源的声纹识别,声纹对比的项目,如果你想要微调训练,可以看看这篇文章。

2025-04-12 05:32:36 753 1

原创 Paraformer和SenseVoice模型训练

针对某些新的词汇,开源的ASR模型都无法识别,那么这个时候,我们就需要使用专业词汇进行微调了,这篇文章将会告诉你如果微调ASR模型,提升模型对专业名词识别的准确率。

2025-04-04 06:34:04 1053 1

原创 ai说话人分离 | 基于语音大模型进行说话人拆分

我们在处理一段长音频时包含了多个人的声音,我们想要提取其中某个人的声音,那么我们该如何办呢?如果你会音频处理软件,比如AU,那么你可以使用它来处理,但是这要人工处理几条音频还能接受,如果是处理成千上万条音频呢,我们就必须要借助计算机来处理了。那么本篇文章主要记录我开发的一款可以根据音频中不同的说话人的声音来切分音频片段的软件。

2025-02-28 21:44:55 4149 5

原创 纯CPU跑DeepSeek-R1 671b大模型

纯CPU跑DeepSeek-R1 671b大模型

2025-02-23 16:30:25 1873

原创 根据音频中的不同讲述人声音进行分离音频 | 基于ai的说话人声音分离项目

基于funasr实现的可以分离一条录音中不同的说话人的声音,并且支持进行合成相同说话人的声音为一条音频,同时支持视频切片处理。

2025-02-22 23:06:15 4502

原创 服务器中部署大模型DeepSeek-R1 | 本地部署DeepSeek-R1大模型 | deepseek-r1部署详细教程

本篇文章主要讲述如何在本地电脑安装部署国产大模型deepseek-r1,通过ollama方式轻松部署deepseek-r1大模型,通过chatbox方式在本地访问deepseek-r1大模型。同时支持在服务器上部署国产大模型deepseek-r1,支持在CentOS或者Ubuntu中部署大模型deepseek r1大模型。

2025-02-14 18:13:18 1060

原创 funasr训练模型报错TypeError: device.__init__() missing 1 required positional argument: ‘device‘解决方法

报错TypeError: device.init() missing 1 required positional argument: 'device’解决方法

2025-02-11 15:58:43 1195

原创 安装MeloTTS报错解决方法

这篇博客内容主要记录搭建TTS语音合成过程中遇到的报错问题的解决方法。

2025-01-24 20:25:56 1197 1

原创 Ubuntu中无法使用root登录解决方法

本篇文章记录如何解决无法使用root登录ubuntu系统的问题

2025-01-11 01:35:28 1851

原创 解决安装pynini和WeTextProcessing报错问题

这篇文章主要记录自己如何解决pynini和WeTextProcessing依赖报错问题

2025-01-01 05:37:30 6874 2

原创 基于3D-Speaker进行区分说话人项目搭建过程报错记录 | 通话录音说话人区分以及语音识别 | 声纹识别以及语音识别 | pyannote-audio

本篇文章主要讲述使用3d-speaker进行说话人区分,以及如何优化目前没法区分说话人的情况,通过vad算法对音频进行片段化计算每个片段的声纹特征值向量,然后通过无监督聚类算法实现声纹特征值相似的音频片段聚类。

2024-12-25 02:19:21 2094

Kali的安装.md

Kali Linux 2020.4版本在VM的安装过程

2021-02-01

数据库连接工具Navicat

Navicat是连接数据库的工具,可以连接mysql数据库,能够同时连接管理多个mysql数据库。友好的图形操作界面,简单的操作就能够连接上本地和云端的mysql服务器。

2020-09-18

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除