自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

夜雨飘零

我本倾心向明月,奈何明月照沟渠

  • 博客(169)
  • 资源 (97)
  • 问答 (7)
  • 收藏
  • 关注

原创 PPASR流式与非流式语音识别

PPASR是一款基于PaddlePaddle实现的语音识别框架,PPASR致力于简单,实用的语音识别项目。可部署在服务器,Nvidia Jetson设备,未来还计划支持Android等移动设备。

2021-11-30 22:35:20 8498 36

原创 仅需几秒音频钟即可克隆语音合成

本项目介绍了一个基于NeuTTS Air的快速语音克隆系统,用户可通过简短音频样本克隆任意语音。系统支持Windows/Linux/MacOS平台,提供GUI界面和HTTP服务接口两种使用方式,支持中文等多种语言,并能通过微调适配个性化需求。项目包含完整的环境搭建指南、音频克隆流程说明、微调模型方法以及可视化操作界面演示,用户可选择CPU或GPU进行推理,仅需3-15秒的干净音频样本即可实现高质量语音克隆。

2025-11-01 18:45:00 1575

原创 NeuCodec-基于神经模型对音频极限压缩

NeuCodec是一种基于有限标量量化(FSQ)的低比特率(0.8kbps)音频编解码器,专为语音标记化设计。它可以将263KB的16kHz WAV文件压缩至仅2KB(压缩率100倍),同时支持还原为24kHz音频。该工具适用于训练高质量文本转语音模型的研究者,安装简单(pip install neucodec),提供编码和解码功能,并支持ONNXRuntime加速CPU解码。开源地址和论文分别位于Github(neuphonic/neucodec)和arXiv平台。

2025-11-01 10:05:40 241

原创 使用SenseVoice-Small搭建语音识别界面应用和服务

本文介绍了SenseVoice-Small多语言音频理解模型的使用方法,该模型支持语音识别、情感识别、声学事件检测等功能,涵盖中文、粤语、英语等多种语言。文章提供了Python代码示例展示如何快速实现语音识别,并重点介绍了配套的GUI界面工具和API服务。GUI工具支持音频/视频文件识别,可输出带时间戳的文本结果并导出为字幕文件;API服务则为其他设备调用提供接口。项目还包含网页测试界面,支持查看分段识别结果和导出多种格式字幕文件。源码可通过知识星球获取。

2025-10-17 21:18:50 367

原创 开发简体繁体互转的微信小程序,含源码

本篇文章来介绍,开发一个可以简体繁体互转的微信小程序,包含后端代码和微信小程序代码,后端使用Python实现。该功能是【小夜工具】微信小程序中的其中一个,里面包含多种实用性的工具,小程序二维码如下,感兴趣可以扫码使用一下。如果读者有其他想要其他功能的源码,也可以评论要求,下篇文章继续开源。

2025-07-06 18:23:07 563

原创 白嫖AiStudio算力部署文心4.5开源大模型给Android调用

摘要 本文介绍了如何利用AiStudio平台免费算力部署文心4.5开源大模型,并搭建中转服务供Android设备调用。主要步骤包括:1) 在AiStudio注册并选择ERNIE-4.5-21B-A3B-Paddle模型进行部署;2) 获取API Key和base_url后,修改中转服务的OpenAI客户端配置;3) Android端通过HTTP请求访问中转服务,实现流式对话功能。该方法无需自有GPU服务器,降低了使用门槛,保持了与上一篇文章相同的Android调用方式。

2025-07-03 21:59:58 483

原创 部署文心4.5开源模型给Android设备调用

本文介绍了在Android端调用部署的文心4.5大语言模型的方法。首先通过fastdeploy部署ERNIE-4.5-21B-A3B-Paddle模型并启动API服务,然后编写Python中转服务处理对话历史并转发请求。Android客户端通过OkHttp发送请求到中转服务,实时接收流式响应数据,实现打字机效果的对话界面。文中提供了完整的部署步骤、服务端代码和Android核心调用方法,展示了如何将大模型能力集成到移动应用中。

2025-07-02 21:54:53 415

原创 文心4.5开源大模型的使用和部署

百度文心4.5系列大模型正式开源,包含10款不同规模的模型(0.3B到424B参数)。本文介绍了快速部署和使用方法:1)安装PaddlePaddle、FastDeploy等必要环境;2)提供Python代码示例实现本地对话功能;3)讲解如何启动API服务并兼容OpenAI接口格式。通过简单命令即可部署模型服务(默认端口8180),并支持使用标准openai库进行调用。文章还预告后续将补充Android客户端调用方法,为开发者提供完整的端到端解决方案。

2025-06-30 22:59:47 982 8

原创 Android部署MediaPipe自定义手势识别模型

本项目实现了一个基于Google MediaPipe和Android CameraX的实时手势识别应用,支持7种常见手势检测(如点赞、胜利手势等)和21个手部关键点绘制。采用CPU推理确保设备兼容性,集成CameraX进行相机管理,并通过自定义视图实时显示识别结果。项目具备多手检测、性能调优等功能,可作为手势识别开发参考。核心依赖MediaPipe任务库和CameraX组件,源码可通过指定方式获取。

2025-06-28 22:30:00 999

原创 MediaPipe自定义手势识别训练模型

摘要:本项目基于MediaPipe Model Maker框架开发了一个自定义手势识别系统,支持石头剪刀布等多种手势的实时检测。系统包含完整的训练流程(支持调整学习率、批次大小等参数)和两种推理模式(图片/视频)。使用Python 3.11环境,通过100-200张手势图片训练后,模型准确率达95%。项目提供源码下载和详细文档,适用于移动设备上的实时手势交互应用。

2025-06-28 18:19:20 977

原创 一个由Python开发的工具网站

本文章要介绍的是一个包含了诸多功能的工具网站,这个网站使用的是Python作为开发语言。里面包含了文档工具,pdf工具,图片工具,音频工具,视频工具,语音工具,还有编程工具等等,这些都是工作或者学习中会使用遇到的工具。

2025-05-01 18:47:06 244

原创 快速从零部署一个DeepSeek-R1服务

这里使用最简单的几条命令介绍如何部署DeepSeek-R1的服务,默认已经安装了Anaconda,使用的是vllm框架,国内也可以轻松部署。

2025-04-05 14:44:18 346

原创 快速训练猫狗声音分类模型

本文章主要介绍如何快速使用声音分类框架训练和推理,本文将致力于最简单的方式去介绍使用,如果使用更进阶功能,还需要从源码去看文档。仅需三行代码即可实现训练和推理。

2025-03-08 12:02:43 630

原创 快速使用PPASR V3版部署语音识别框架

主要介绍如何快速使用PPASR语音识别框架训练和推理,该框架支持多个语音识别模型,包含deepspeech2、conformer、squeezeformer、efficient_conformer等,每个模型都支持流式识别和非流式识别,以及多种解码器,包含ctc_greedy_search、ctc_prefix_beam_search、attention_rescoring、ctc_beam_search等

2025-03-08 11:40:51 696

原创 快速使用MASR V3版部署语音识别框架

主要介绍如何快速使用MASR语音识别框架训练和推理,本文将致力于最简单的方式去介绍使用。该框架支持多个语音识别模型,包含conformer等,每个模型都支持流式识别和非流式识别,以及多种解码器。更多功能等你发现。

2025-03-08 11:34:54 556

原创 基于大语言模型实现文本端点检测

在语音对话识别中,一般使用VAD检测用户时候结束说话,但是这个结束时间长度设置多少合适,这很难抉择,太短了,用户说话慢就容易打断,太长了用户等待时间久。还有常见的情况,用户在说话的时候,中途停顿了一下思考,如果只是使用VAD检测,有可能就会认为说话结束,但是用户还没有说话,这句话也不完整。这种情况可以配合文本端点检测,在使用VAD检测的时候,配合文本端点检测,从而保证用户表达完整。

2025-01-18 14:14:00 943

原创 基于Pytorch实现的说话人日志(说话人分离)

是博主开源的一款声纹识别框架,该框架支持EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型,也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法,支持AAMLoss、AMLoss、ARMLoss、CELoss等多种损失函数。该框架支持多种关于声纹识别的处理,比如声纹对,比声纹检索,以及本文章需要介绍的说话人日志(说话人分离)。

2024-12-22 12:13:24 1419

原创 YeAudio音频工具的介绍和使用

这款Python音频处理工具功能强大,支持读取多种格式的音频文件。它不仅能够对音频进行裁剪、添加混响、添加噪声等多种处理操作,还广泛应用于语音识别、语音合成、声音分类以及声纹识别等多个项目领域。

2024-08-29 22:26:37 1910 4

原创 Ubuntu安装Docker并支持使用GPU

因为Docker官方的网站无法访问,这里提供阿里镜像安装方式,并提供支持英伟达GPU方式。

2024-08-29 11:35:16 1920

原创 Ubuntu22.04使用/etc/rc.local开机启动程序

来开机启动程序,步骤如下,针对Ubuntu20.04或Ubuntu22.04系统都有效。因为在工作中,Ubuntu系统经常使用到开机启动,为了方便之后使用,特此介绍下如何使用。

2024-07-02 22:19:42 2111

原创 夜雨飘零·千问:解答您无尽的疑问

想象一下,只需一键,即可轻松启动功能强大的大语言模型。夜雨飘零·千问启动器就是这样一个神奇的工具,它无需繁琐的环境搭建,内置了多种规格的模型以适应不同的使用场景。更令人惊喜的是,即使你的设备资源有限,也能找到适合的模型,因为最小的0.5B模型仅需1G显存!

2024-04-09 23:33:37 645

原创 鸿蒙应用开发-录音并使用WebSocket实现实时语音识别

录音并实时获取RAW的音频格式数据,利用WebSocket上传数据到服务器,并实时获取语音识别结果,参考文档。是录音工具类,进行录音和获取录音数据。中添加,关于字段说明,也需要在各个的。添加所需要的权限,注意是在。还需要一些其他的工具函数。

2024-03-26 22:58:48 2266 8

原创 鸿蒙应用开发-录音保存并播放音频

是录音工具类,进行录音和获取录音数据。格式的音频,然后播放该音频,参考文档。中添加,关于字段说明,也需要在各个的。添加所需要的权限,注意是在。

2024-03-26 22:56:48 1810 8

原创 鸿蒙应用开发-自定义可删除列表弹窗

自定义列表弹窗,可以对弹窗的列表点击删除,参考文档。

2024-02-03 20:10:55 615

原创 鸿蒙应用开发-仿微信聊天对话对话信息列表

编写的是对列表的操作,如添加数据、获取列表大小,通过操作这个对象,控制列表显示。仿微信聊天对话对话信息列表,显示发送文本和接收文本,参考文档。

2024-01-19 19:35:08 1145

原创 鸿蒙应用开发-发送POST请求并获取结果

发送POST请求,上传数据到服务器并获取结果,参考文档。

2024-01-19 19:32:32 2965 2

原创 鸿蒙应用开发-播放本地音频文件

播音音频,提高音频文件路径,播放音频。参考文档[使用AVPlayer开发音频播放功能]

2024-01-18 19:49:30 3001 10

原创 鸿蒙应用开发-请求语音合成服务获取音频文件

请求语音合成服务,通过上传语音合成文本,返回音频数据,并保存到本地。这里要说明一下,由于`HttpResponse`接口给问题,服务的响应类型必须是`application/octet-stream`,才能正确获取音频数据并保存,接口文档:[HttpResponse]

2024-01-18 19:47:31 703

原创 轻松识别几个小时的长音视频文件

之前的文章绍一个准确率非常高的语音识别框架,但那个只能识别实时的短音频,如果想要识别一个非常长的音频,几十分钟,甚至几个小时,那之前的那个是做不到的所以就有了本文。本文介绍搭建一个长语音识别服务,可以把任意长度的音视频到识别结果。而且识别结果中,可以包含每句话的开始时间和结束时间,可以用来做字幕等等。

2024-01-07 13:28:05 1193

原创 实时指令唤醒

本文将介绍一个实时指令唤醒的程序,可以添加任意的指令,实时录音一旦检测到指令语音,激活程序。同时还支持指令微调、提高指令的准确率。

2023-12-17 15:36:39 2096 1

原创 语音指令控制坦克大战

本文将介绍一个可以通过语音指令来控制坦克大战游戏的程序,用户只需要添加几个疾病区然后控制坦克进行向上、向下、向左、向右、开火、停止等操作。同时还支持指令微调、提高指令的准确率。

2023-12-17 13:07:59 732

原创 一键运行大语言模型服务,搭建聊天应用

本文介绍一个可以快速搭建本地大语言模型的聊天服务,模型和代码已全部提供,不需要联网运行。项目使用的是Qwen-7B-Int4模型,只需要8G显存的显卡都能流畅运行,无论是Windows还是Linux系统都支持使用。

2023-10-23 20:46:29 628

原创 轻松快速搭建一个本地的语音合成服务

本文将介绍一个可以快速搭建本地语音合成的服务,模型和代码已全部提供,不需要联网运行。项目使用的是VITS模型结构,能够很轻松地启动服务。

2023-10-22 13:59:16 1273

原创 识别准确率竟如此高,实时语音识别服务

本文将介绍一个准确率非常高的语音识别框架,那就是FunASR,这个框架的模型训练数据超过几万个小时,经过测试,准确率非常高。本文将介绍如何启动WebSocket服务和Android调用这个服务来实时识别,一边说话一边出结果。

2023-10-21 21:56:04 2870

原创 FunASR语音识别GUI界面应用

本文将介绍一个基于FunASR开发的语音识别界面应用,这个应用可以选择本地音频,也可以录音识别。支持多种音频格式和视频格式,可以对识别的结果加上时间戳做成字幕。

2023-10-08 18:46:12 1887

原创 基于PaddlePaddle实现的声纹识别系统

本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型,不排除以后会支持更多模型,同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对应项目中的AAMLoss,对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接,除此之外,还支

2023-08-20 23:08:54 2196

原创 基于Pytorch实现的声纹识别系统

本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型,不排除以后会支持更多模型,同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对应项目中的AAMLoss,对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接,除此之外,还支

2023-08-20 23:05:12 7522 5

原创 微调Whisper语音识别模型和加速推理

OpenAI在开源了号称其英文语音辨识能力已达到人类水准的Whisper项目,且它亦支持其它98种语言的自动语音辨识。Whisper所提供的自动语音识与翻译任务,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。本项目主要的目的是为了对Whisper模型使用Lora进行微调,目前开源了好几个模型,具体可以在openai查看,下面列出了常用的几个模型。另外项目最后还对语音识别加速推理,使用了CTranslate2加速推理,提示一下,加速推理支持直接使用Whisper原模型转换,并不一定需要微调。

2023-04-23 22:41:07 11961 14

原创 使用VAD将长语音分割的多段短语音

今天来介绍一个VAD的工具,VAD(Voice Activity Detection)语音活动检测,是可以把一段长语音以静音位置把语音分割成多段短语音,常见的就用WebRTC VAD工具,目前很多项目都是用这个工具,但是今天作者介绍的是另一个工具,这个工具是[YeAudio](https://github.com/yeyupiaoling/YeAudio)的一个小功能,这个功能是基于深度学习实现的。

2022-11-23 20:30:00 4249

原创 基于PaddlePaddle训练中文标点符号模型

本想是基于[PaddleSpeech](https://github.com/paddlepaddle/PaddleSpeech)开发的中文标点符号模型,默认使用的预训练模型为`ernie-3.0-medium-zh`。该模型可以用于语音识别结果添加标点符号,使用案例[PPASR](https://github.com/yeyupiaoling/PPASR)。

2022-09-14 19:34:00 4430 7

Pytorch实现的EcapaTdnn声纹识别超大数据模型(melspectrogram)

基于PaddlePaddle实现的EcapaTdnn声纹识别超大数据模型,这个模型使用的是梅尔频谱(melspectrogram)注意是legacy2分支,源码地址是:https://github.com/yeyupiaoling/VoiceprintRecognition-Pytorch/tree/legacy2

2022-11-08

Pytorch训练EcapaTdnn声纹识别超大数据模型(spectrogram)

基于PaddlePaddle实现的EcapaTdnn声纹识别超大数据模型,这个模型使用的是声谱图(spectrogram) 注意是legacy2分支,源码地址是:https://github.com/yeyupiaoling/VoiceprintRecognition-Pytorch/tree/legacy2

2022-11-08

基于Pytorch实现的EcapaTdnn声纹识别模型(melspectrogram)

基于Pytorch实现的EcapaTdnn声纹识别大模型(melspectrogram),这个模型使用的梅尔谱图(melspectrogram) 注意是legacy2分支,源码地址是:https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-05-03

基于Pytorch实现的EcapaTdnn声纹识别模型(spectrogram)

基于Pytorch实现的EcapaTdnn声纹识别大模型(spectrogram),这个模型使用的声谱图(spectrogram) 注意是legacy2分支,源码地址是:https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-05-04

基于Pytorch实现的EcapaTdnn声纹识别大模型(melspectrogram)

基于Pytorch实现的EcapaTdnn声纹识别大模型(melspectrogram),这个模型使用的梅尔谱图(melspectrogram) 注意是legacy2分支,源码地址是:https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-05-06

基于Pytorch实现的EcapaTdnn声纹识别大模型(spectrogram)

基于Pytorch实现的EcapaTdnn声纹识别大模型(spectrogram),这个模型使用的声谱图(spectrogram) 注意是legacy2分支,源码地址是:https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-05-07

基于PaddlePaddle实现的EcapaTdnn声纹识别大模型(spectrogram)

基于PaddlePaddle实现的EcapaTdnn声纹识别大模型,这个模型使用的是声谱图(spectrogram) 注意是legacy2分支,源码地址:https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-05-02

基于PaddlePaddle实现的EcapaTdnn声纹识别模型(melspectrogram)

基于PaddlePaddle实现的EcapaTdnn声纹识别模型,这个模型使用的是梅尔频谱(melspectrogram) 注意是legacy2分支,源码地址:https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-04-25

基于PaddlePaddle实现的EcapaTdnn声纹识别模型(spectrogram)

基于PaddlePaddle实现的EcapaTdnn声纹识别模型,这个模型使用的是声谱图(spectrogram) 注意是legacy2分支,源码地址:https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-04-26

基于PaddlePaddle实现的EcapaTdnn声纹识别大模型(melspectrogram)

基于PaddlePaddle实现的EcapaTdnn声纹识别大模型,这个模型使用的是声谱图(melspectrogram) 注意是legacy2分支,源码地址:https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-05-01

PaddlePaddle实现的EcapaTdnn声纹识别超大数据(spectrogram)

基于PaddlePaddle实现的EcapaTdnn声纹识别超大数据模型,这个模型使用的是声谱图(spectrogram) 注意是legacy2分支,源码地址:https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-11-08

PPASR流式与非流式语音识别模型(LibriSpeech数据集)

PPASR流式与非流式语音识别模型(LibriSpeech数据集),源码地址:https://github.com/yeyupiaoling/PPASR/tree/release/2.4.x

2022-01-26

PPASR中文语音识别(最终级)模型(大数据集)

PPASR中文语音识别(最终级)模型(大数据集训练的),源码地址:https://github.com/yeyupiaoling/PPASR/tree/release/2.4.x

2021-12-07

对语音识别结果加上标点符号模型

对语音识别结果加上标点符号,使用教程:https://yeyupiaoling.blog.csdn.net/article/details/122474859

2022-01-13

Pytorch实现的流式与非流式语音识别模型(数据集:AIShell)

Pytorch实现的流式与非流式语音识别模型(数据集:AIShell),源码地址为:https://github.com/yeyupiaoling/MASR

2021-12-26

Pytorch实现的流式与非流式语音识别模型(数据集:free_st_chinese_mandarin_corpus)

Pytorch实现的流式与非流式语音识别模型(数据集:free_st_chinese_mandarin_corpus),源码地址为:https://github.com/yeyupiaoling/MASR

2021-12-26

Pytorch实现的流式与非流式语音识别模型(数据集:thchs30)

Pytorch实现的流式与非流式语音识别模型(数据集:thchs30),源码地址为:https://github.com/yeyupiaoling/MASR

2021-12-26

基于深度学习实现数千种动物识别

基于深度学习实现数千种动物识别,使用Flask提供接口,提供给Android调用,提供Android应用调用程序。还有GUI界面演示。

2022-07-05

基于PaddlePaddle实现的语音合成工具

基于PaddlePaddle实现的语音合成工具,包含GUI界面操作和Web接口,以及简单示例。 视频教程:https://www.bilibili.com/video/BV1G34y1s744

2022-06-27

基于深度学习框架ONNX的人脸识别系统

基于深度学习框架ONNX的人脸识别系统,包含了使用图片路径进行识别、使用摄像头进行识别、提供Web接口的识别。 包含人脸检测、人脸识别、年龄性别识别、人脸关键点识别 使用教程视频:https://www.bilibili.com/video/BV13N4y1G7Rc

2022-06-24

基于Pytorch实现的EcapaTdnn声纹识别模型(melspectrogram)

基于Pytorch实现的EcapaTdnn声纹识别大模型(melspectrogram),这个模型使用的梅尔谱图(melspectrogram) 注意是legacy2分支,源码地址是:https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-05-03

基于Pytorch实现的EcapaTdnn声纹识别模型(spectrogram)

基于Pytorch实现的EcapaTdnn声纹识别大模型(spectrogram),这个模型使用的声谱图(spectrogram) 注意是legacy2分支,源码地址是:https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-05-04

基于Pytorch实现的EcapaTdnn声纹识别大模型(melspectrogram)

基于Pytorch实现的EcapaTdnn声纹识别大模型(melspectrogram),这个模型使用的梅尔谱图(melspectrogram) 注意是legacy2分支,源码地址是:https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-05-06

基于Pytorch实现的EcapaTdnn声纹识别大模型(spectrogram)

基于Pytorch实现的EcapaTdnn声纹识别大模型(spectrogram),这个模型使用的声谱图(spectrogram) 注意是legacy2分支,源码地址是:https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-05-07

基于PaddlePaddle实现的EcapaTdnn声纹识别大模型(spectrogram)

基于PaddlePaddle实现的EcapaTdnn声纹识别大模型,这个模型使用的是声谱图(spectrogram) 注意是legacy2分支,源码地址:https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-05-02

基于PaddlePaddle实现的EcapaTdnn声纹识别模型(melspectrogram)

基于PaddlePaddle实现的EcapaTdnn声纹识别模型,这个模型使用的是梅尔频谱(melspectrogram) 注意是legacy2分支,源码地址:https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-04-25

基于PaddlePaddle实现的EcapaTdnn声纹识别模型(spectrogram)

基于PaddlePaddle实现的EcapaTdnn声纹识别模型,这个模型使用的是声谱图(spectrogram) 注意是legacy2分支,源码地址:https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-04-26

基于PaddlePaddle实现的EcapaTdnn声纹识别大模型(melspectrogram)

基于PaddlePaddle实现的EcapaTdnn声纹识别大模型,这个模型使用的是声谱图(melspectrogram) 注意是legacy2分支,源码地址:https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-05-01

PaddlePaddle实现的EcapaTdnn声纹识别超大数据melspectrogram

基于PaddlePaddle实现的EcapaTdnn声纹识别超大数据模型,这个模型使用的是梅尔频谱(melspectrogram) 注意是legacy2分支,源码地址:https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-11-08

MASR的V2版本Conformer训练超大数据集

MASR的V2版本训练Conformer模型文件,使用Fbank,Pytorch,训练数据为超大数据集,13000+小时。 源码地址:https://github.com/yeyupiaoling/MASR/tree/release/2.3.x

2023-01-29

PPASR的V2版本Conformer模型文件

PPASR的V2版本训练Conformer模型文件,使用Fbank,纯PaddlePaddle,训练数据Wenetspeech。 源码地址:https://github.com/yeyupiaoling/PPASR/tree/release/2.4.x

2022-11-08

PPASR的V2版本Conformer训练超大数据集

PPASR的V2版本训练Conformer模型文件,使用Fbank,纯PaddlePaddle,训练数据为超大数据集,13000+小时。 源码地址:https://github.com/yeyupiaoling/PPASR/tree/release/2.4.x

2022-11-11

PPASR的V2版本DeepSpeech2模型文件

PPASR的V2版本训练DeepSpeech2模型文件,使用Fbank,纯PaddlePaddle,训练数据Wenetspeech。 源码地址:https://github.com/yeyupiaoling/PPASR/tree/release/2.4.x

2022-11-08

PPASR中文语音识别(最终级)模型(大数据集)

PPASR中文语音识别(最终级)模型(大数据集训练的),源码地址:https://github.com/yeyupiaoling/PPASR/tree/release/2.4.x

2021-12-07

基于PaddlePaddle声纹识别模型全部模型参数文件

基于PaddlePaddle声纹识别模型全部模型参数文件,源地址:https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle

2023-08-28

基于Pytorch声纹识别模型全部模型参数文件

基于Pytorch声纹识别模型全部模型参数文件,源码地址:https://github.com/yeyupiaoling/VoiceprintRecognition-Pytorch

2023-08-28

基于PaddlePaddle声纹识别模型EcapaTdnn全部模型参数文件

基于PaddlePaddle实现的EcapaTdnn声纹识别,训练中文数据集、更大数据集、超大数据集,各种预处理方法。 源码地址:https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/release/0.x

2023-08-11

基于Pytorch声纹识别模型EcapaTdnn全部模型参数文件

基于Pytorch实现的EcapaTdnn声纹识别,训练中文数据集、更大数据集、超大数据集,各种预处理方法。 源码地址:https://github.com/yeyupiaoling/VoiceprintRecognition-Pytorch/tree/release/0.x

2023-08-11

自定义中文语料约2千万条数据

自定义中文语料,约2千万条数据,用于训练kenlm模型,使用地址:https://github.com/yeyupiaoling/PPASR/blob/develop/docs/beam_search.md#%E8%AE%AD%E7%BB%83%E8%87%AA%E5%B7%B1%E7%9A%84%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B

2022-11-14

3000+小时的中文普通话语音数据集

3000+小时的中文普通话语音数据集,可用于语音识别训练,使用地址:https://github.com/yeyupiaoling/PPASR

2022-11-14

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除