夜雨飘零1-CSDN博客

原创 PPASR流式与非流式语音识别

PPASR是一款基于PaddlePaddle实现的语音识别框架，PPASR致力于简单，实用的语音识别项目。可部署在服务器，Nvidia Jetson设备，未来还计划支持Android等移动设备。

2021-11-30 22:35:20 8691 36

《零门槛AI生成HTML应用一键部署云端桌面》介绍了如何通过"夜雨飘零桌面"平台轻松部署AI生成的HTML应用。文章详解两种方法：一是手动上传HTML代码创建应用，包括登录、创建应用、填写信息等简单步骤；二是通过AI对话功能直接生成应用，用户只需输入指令即可自动完成部署。该平台支持多设备同步访问，内置多种实用工具和游戏，让HTML应用的云端部署变得简单快捷，解决了本地代码无法跨设备访问的痛点。网址：https://www.yeyupiaoling.cn/

2026-04-05 22:16:18 352

原创 Markdown支持导出多种格式文档的记事本

本文介绍了"夜雨飘零桌面"的记事本功能，支持Markdown格式编辑与多种格式导出。用户登录后可通过快捷方式打开记事本，在左侧编辑Markdown内容时右侧实时预览效果。编辑完成后可保存文档，并支持导出为PDF、Word、HTML及图片等多种格式。该功能为需要多格式文档输出的用户提供了便捷解决方案。

2026-01-19 21:10:35 208

原创 IndexTTS2本地部署和使用

IndexTTS2是一款先进的零样本语音克隆模型，在情感表达和时长控制方面表现优异，适用于配音、有声读物等多种场景。项目提供三种使用方式：界面应用（gui_app.py）、WebUI（webui.py）和HTTP服务（infer_server.py），支持通过参考音频、情感向量或文本描述进行情感控制。用户可快速部署及使用，且模型对显存要求较低。环境搭建仅需安装PyTorch和相关依赖，项目已包含预训练模型。更多详情可访问试用地址或扫码获取源码。

2025-11-12 20:27:34 2826

原创仅需几秒音频钟即可克隆语音合成

本项目介绍了一个基于NeuTTS Air的快速语音克隆系统，用户可通过简短音频样本克隆任意语音。系统支持Windows/Linux/MacOS平台，提供GUI界面和HTTP服务接口两种使用方式，支持中文等多种语言，并能通过微调适配个性化需求。项目包含完整的环境搭建指南、音频克隆流程说明、微调模型方法以及可视化操作界面演示，用户可选择CPU或GPU进行推理，仅需3-15秒的干净音频样本即可实现高质量语音克隆。

2025-11-01 18:45:00 1849

原创 NeuCodec-基于神经模型对音频极限压缩

NeuCodec是一种基于有限标量量化(FSQ)的低比特率(0.8kbps)音频编解码器，专为语音标记化设计。它可以将263KB的16kHz WAV文件压缩至仅2KB(压缩率100倍)，同时支持还原为24kHz音频。该工具适用于训练高质量文本转语音模型的研究者，安装简单(pip install neucodec)，提供编码和解码功能，并支持ONNXRuntime加速CPU解码。开源地址和论文分别位于Github(neuphonic/neucodec)和arXiv平台。

2025-11-01 10:05:40 393

原创使用SenseVoice-Small搭建语音识别界面应用和服务

本文介绍了SenseVoice-Small多语言音频理解模型的使用方法，该模型支持语音识别、情感识别、声学事件检测等功能，涵盖中文、粤语、英语等多种语言。文章提供了Python代码示例展示如何快速实现语音识别，并重点介绍了配套的GUI界面工具和API服务。GUI工具支持音频/视频文件识别，可输出带时间戳的文本结果并导出为字幕文件；API服务则为其他设备调用提供接口。项目还包含网页测试界面，支持查看分段识别结果和导出多种格式字幕文件。源码可通过知识星球获取。

2025-10-17 21:18:50 907

原创开发简体繁体互转的微信小程序，含源码

本篇文章来介绍，开发一个可以简体繁体互转的微信小程序，包含后端代码和微信小程序代码，后端使用Python实现。该功能是【小夜工具】微信小程序中的其中一个，里面包含多种实用性的工具，小程序二维码如下，感兴趣可以扫码使用一下。如果读者有其他想要其他功能的源码，也可以评论要求，下篇文章继续开源。

2025-07-06 18:23:07 825

原创白嫖AiStudio算力部署文心4.5开源大模型给Android调用

摘要本文介绍了如何利用AiStudio平台免费算力部署文心4.5开源大模型，并搭建中转服务供Android设备调用。主要步骤包括：1) 在AiStudio注册并选择ERNIE-4.5-21B-A3B-Paddle模型进行部署；2) 获取API Key和base_url后，修改中转服务的OpenAI客户端配置；3) Android端通过HTTP请求访问中转服务，实现流式对话功能。该方法无需自有GPU服务器，降低了使用门槛，保持了与上一篇文章相同的Android调用方式。

2025-07-03 21:59:58 748

原创部署文心4.5开源模型给Android设备调用

本文介绍了在Android端调用部署的文心4.5大语言模型的方法。首先通过fastdeploy部署ERNIE-4.5-21B-A3B-Paddle模型并启动API服务，然后编写Python中转服务处理对话历史并转发请求。Android客户端通过OkHttp发送请求到中转服务，实时接收流式响应数据，实现打字机效果的对话界面。文中提供了完整的部署步骤、服务端代码和Android核心调用方法，展示了如何将大模型能力集成到移动应用中。

2025-07-02 21:54:53 513

原创文心4.5开源大模型的使用和部署

百度文心4.5系列大模型正式开源，包含10款不同规模的模型（0.3B到424B参数）。本文介绍了快速部署和使用方法：1)安装PaddlePaddle、FastDeploy等必要环境；2)提供Python代码示例实现本地对话功能；3)讲解如何启动API服务并兼容OpenAI接口格式。通过简单命令即可部署模型服务(默认端口8180)，并支持使用标准openai库进行调用。文章还预告后续将补充Android客户端调用方法，为开发者提供完整的端到端解决方案。

2025-06-30 22:59:47 1180 8

原创 Android部署MediaPipe自定义手势识别模型

本项目实现了一个基于Google MediaPipe和Android CameraX的实时手势识别应用，支持7种常见手势检测（如点赞、胜利手势等）和21个手部关键点绘制。采用CPU推理确保设备兼容性，集成CameraX进行相机管理，并通过自定义视图实时显示识别结果。项目具备多手检测、性能调优等功能，可作为手势识别开发参考。核心依赖MediaPipe任务库和CameraX组件，源码可通过指定方式获取。

2025-06-28 22:30:00 1345

原创 MediaPipe自定义手势识别训练模型

摘要：本项目基于MediaPipe Model Maker框架开发了一个自定义手势识别系统，支持石头剪刀布等多种手势的实时检测。系统包含完整的训练流程（支持调整学习率、批次大小等参数）和两种推理模式（图片/视频）。使用Python 3.11环境，通过100-200张手势图片训练后，模型准确率达95%。项目提供源码下载和详细文档，适用于移动设备上的实时手势交互应用。

2025-06-28 18:19:20 1877 1

原创一个由Python开发的工具网站

本文章要介绍的是一个包含了诸多功能的工具网站，这个网站使用的是Python作为开发语言。里面包含了文档工具，pdf工具，图片工具，音频工具，视频工具，语音工具，还有编程工具等等，这些都是工作或者学习中会使用遇到的工具。

2025-05-01 18:47:06 377

原创快速从零部署一个DeepSeek-R1服务

这里使用最简单的几条命令介绍如何部署DeepSeek-R1的服务，默认已经安装了Anaconda，使用的是vllm框架，国内也可以轻松部署。

2025-04-05 14:44:18 453

原创快速训练猫狗声音分类模型

本文章主要介绍如何快速使用声音分类框架训练和推理，本文将致力于最简单的方式去介绍使用，如果使用更进阶功能，还需要从源码去看文档。仅需三行代码即可实现训练和推理。

2025-03-08 12:02:43 910 1

原创快速使用PPASR V3版部署语音识别框架

主要介绍如何快速使用PPASR语音识别框架训练和推理，该框架支持多个语音识别模型，包含deepspeech2、conformer、squeezeformer、efficient_conformer等，每个模型都支持流式识别和非流式识别，以及多种解码器，包含ctc_greedy_search、ctc_prefix_beam_search、attention_rescoring、ctc_beam_search等

2025-03-08 11:40:51 839

原创快速使用MASR V3版部署语音识别框架

主要介绍如何快速使用MASR语音识别框架训练和推理，本文将致力于最简单的方式去介绍使用。该框架支持多个语音识别模型，包含conformer等，每个模型都支持流式识别和非流式识别，以及多种解码器。更多功能等你发现。

2025-03-08 11:34:54 707

原创基于大语言模型实现文本端点检测

在语音对话识别中，一般使用VAD检测用户时候结束说话，但是这个结束时间长度设置多少合适，这很难抉择，太短了，用户说话慢就容易打断，太长了用户等待时间久。还有常见的情况，用户在说话的时候，中途停顿了一下思考，如果只是使用VAD检测，有可能就会认为说话结束，但是用户还没有说话，这句话也不完整。这种情况可以配合文本端点检测，在使用VAD检测的时候，配合文本端点检测，从而保证用户表达完整。

2025-01-18 14:14:00 1080

原创基于Pytorch实现的说话人日志（说话人分离）

是博主开源的一款声纹识别框架，该框架支持EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型，也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法，支持AAMLoss、AMLoss、ARMLoss、CELoss等多种损失函数。该框架支持多种关于声纹识别的处理，比如声纹对，比声纹检索，以及本文章需要介绍的说话人日志（说话人分离）。

2024-12-22 12:13:24 1722

原创 YeAudio音频工具的介绍和使用

这款Python音频处理工具功能强大，支持读取多种格式的音频文件。它不仅能够对音频进行裁剪、添加混响、添加噪声等多种处理操作，还广泛应用于语音识别、语音合成、声音分类以及声纹识别等多个项目领域。

2024-08-29 22:26:37 2054 4

原创 Ubuntu安装Docker并支持使用GPU

因为Docker官方的网站无法访问，这里提供阿里镜像安装方式，并提供支持英伟达GPU方式。

2024-08-29 11:35:16 2167

原创 Ubuntu22.04使用/etc/rc.local开机启动程序

来开机启动程序，步骤如下，针对Ubuntu20.04或Ubuntu22.04系统都有效。因为在工作中，Ubuntu系统经常使用到开机启动，为了方便之后使用，特此介绍下如何使用。

2024-07-02 22:19:42 2525

原创夜雨飘零·千问：解答您无尽的疑问

想象一下，只需一键，即可轻松启动功能强大的大语言模型。夜雨飘零·千问启动器就是这样一个神奇的工具，它无需繁琐的环境搭建，内置了多种规格的模型以适应不同的使用场景。更令人惊喜的是，即使你的设备资源有限，也能找到适合的模型，因为最小的0.5B模型仅需1G显存！

2024-04-09 23:33:37 856

原创鸿蒙应用开发-录音并使用WebSocket实现实时语音识别

录音并实时获取RAW的音频格式数据，利用WebSocket上传数据到服务器，并实时获取语音识别结果，参考文档。是录音工具类，进行录音和获取录音数据。中添加，关于字段说明，也需要在各个的。添加所需要的权限，注意是在。还需要一些其他的工具函数。

2024-03-26 22:58:48 2433 8

原创鸿蒙应用开发-录音保存并播放音频

是录音工具类，进行录音和获取录音数据。格式的音频，然后播放该音频，参考文档。中添加，关于字段说明，也需要在各个的。添加所需要的权限，注意是在。

2024-03-26 22:56:48 2015 8

原创鸿蒙应用开发-自定义可删除列表弹窗

自定义列表弹窗，可以对弹窗的列表点击删除，参考文档。

2024-02-03 20:10:55 661

原创鸿蒙应用开发-仿微信聊天对话对话信息列表

编写的是对列表的操作，如添加数据、获取列表大小，通过操作这个对象，控制列表显示。仿微信聊天对话对话信息列表，显示发送文本和接收文本，参考文档。

2024-01-19 19:35:08 1314

原创鸿蒙应用开发-发送POST请求并获取结果

发送POST请求，上传数据到服务器并获取结果，参考文档。

2024-01-19 19:32:32 3110 2

原创鸿蒙应用开发-播放本地音频文件

播音音频，提高音频文件路径，播放音频。参考文档[使用AVPlayer开发音频播放功能]

2024-01-18 19:49:30 3359 10

原创鸿蒙应用开发-请求语音合成服务获取音频文件

请求语音合成服务，通过上传语音合成文本，返回音频数据，并保存到本地。这里要说明一下，由于`HttpResponse`接口给问题，服务的响应类型必须是`application/octet-stream`，才能正确获取音频数据并保存，接口文档：[HttpResponse]

2024-01-18 19:47:31 756

原创轻松识别几个小时的长音视频文件

之前的文章绍一个准确率非常高的语音识别框架，但那个只能识别实时的短音频，如果想要识别一个非常长的音频，几十分钟，甚至几个小时，那之前的那个是做不到的所以就有了本文。本文介绍搭建一个长语音识别服务，可以把任意长度的音视频到识别结果。而且识别结果中，可以包含每句话的开始时间和结束时间，可以用来做字幕等等。

2024-01-07 13:28:05 1308

原创实时指令唤醒

本文将介绍一个实时指令唤醒的程序，可以添加任意的指令，实时录音一旦检测到指令语音，激活程序。同时还支持指令微调、提高指令的准确率。

2023-12-17 15:36:39 2275 1

原创语音指令控制坦克大战

本文将介绍一个可以通过语音指令来控制坦克大战游戏的程序，用户只需要添加几个疾病区然后控制坦克进行向上、向下、向左、向右、开火、停止等操作。同时还支持指令微调、提高指令的准确率。

2023-12-17 13:07:59 807

原创一键运行大语言模型服务，搭建聊天应用

本文介绍一个可以快速搭建本地大语言模型的聊天服务，模型和代码已全部提供，不需要联网运行。项目使用的是Qwen-7B-Int4模型，只需要8G显存的显卡都能流畅运行，无论是Windows还是Linux系统都支持使用。

2023-10-23 20:46:29 745

原创轻松快速搭建一个本地的语音合成服务

本文将介绍一个可以快速搭建本地语音合成的服务，模型和代码已全部提供，不需要联网运行。项目使用的是VITS模型结构，能够很轻松地启动服务。

2023-10-22 13:59:16 1421

原创识别准确率竟如此高，实时语音识别服务

本文将介绍一个准确率非常高的语音识别框架，那就是FunASR，这个框架的模型训练数据超过几万个小时，经过测试，准确率非常高。本文将介绍如何启动WebSocket服务和Android调用这个服务来实时识别，一边说话一边出结果。

2023-10-21 21:56:04 3075

原创 FunASR语音识别GUI界面应用

本文将介绍一个基于FunASR开发的语音识别界面应用，这个应用可以选择本地音频，也可以录音识别。支持多种音频格式和视频格式，可以对识别的结果加上时间戳做成字幕。

2023-10-08 18:46:12 2043

原创基于PaddlePaddle实现的声纹识别系统

本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型，不排除以后会支持更多模型，同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法，使用了ArcFace Loss，ArcFace loss：Additive Angular Margin Loss（加性角度间隔损失函数），对应项目中的AAMLoss，对特征向量和权重归一化，对θ加上角度间隔m，角度间隔比余弦间隔在对角度的影响更加直接，除此之外，还支

2023-08-20 23:08:54 2473 1

原创基于Pytorch实现的声纹识别系统

2023-08-20 23:05:12 8115 5

Pytorch实现的EcapaTdnn声纹识别超大数据模型（melspectrogram）

基于PaddlePaddle实现的EcapaTdnn声纹识别超大数据模型，这个模型使用的是梅尔频谱（melspectrogram）注意是legacy2分支，源码地址是：https://github.com/yeyupiaoling/VoiceprintRecognition-Pytorch/tree/legacy2

2022-11-08

Pytorch训练EcapaTdnn声纹识别超大数据模型（spectrogram）

基于PaddlePaddle实现的EcapaTdnn声纹识别超大数据模型，这个模型使用的是声谱图(spectrogram）注意是legacy2分支，源码地址是：https://github.com/yeyupiaoling/VoiceprintRecognition-Pytorch/tree/legacy2

2022-11-08

基于Pytorch实现的EcapaTdnn声纹识别模型（melspectrogram）

基于Pytorch实现的EcapaTdnn声纹识别大模型（melspectrogram），这个模型使用的梅尔谱图（melspectrogram）注意是legacy2分支，源码地址是：https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-05-03

基于Pytorch实现的EcapaTdnn声纹识别模型（spectrogram）

基于Pytorch实现的EcapaTdnn声纹识别大模型（spectrogram），这个模型使用的声谱图（spectrogram）注意是legacy2分支，源码地址是：https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-05-04

基于Pytorch实现的EcapaTdnn声纹识别大模型（melspectrogram）

2022-05-06

基于Pytorch实现的EcapaTdnn声纹识别大模型（spectrogram）

2022-05-07

基于PaddlePaddle实现的EcapaTdnn声纹识别大模型（spectrogram）

基于PaddlePaddle实现的EcapaTdnn声纹识别大模型，这个模型使用的是声谱图（spectrogram）注意是legacy2分支，源码地址：https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-05-02

基于PaddlePaddle实现的EcapaTdnn声纹识别模型（melspectrogram）

基于PaddlePaddle实现的EcapaTdnn声纹识别模型，这个模型使用的是梅尔频谱（melspectrogram）注意是legacy2分支，源码地址：https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-04-25

基于PaddlePaddle实现的EcapaTdnn声纹识别模型（spectrogram）

基于PaddlePaddle实现的EcapaTdnn声纹识别模型，这个模型使用的是声谱图（spectrogram）注意是legacy2分支，源码地址：https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-04-26

基于PaddlePaddle实现的EcapaTdnn声纹识别大模型（melspectrogram）

基于PaddlePaddle实现的EcapaTdnn声纹识别大模型，这个模型使用的是声谱图（melspectrogram）注意是legacy2分支，源码地址：https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-05-01

PaddlePaddle实现的EcapaTdnn声纹识别超大数据（spectrogram）

基于PaddlePaddle实现的EcapaTdnn声纹识别超大数据模型，这个模型使用的是声谱图（spectrogram）注意是legacy2分支，源码地址：https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-11-08

PPASR流式与非流式语音识别模型（LibriSpeech数据集）

PPASR流式与非流式语音识别模型（LibriSpeech数据集），源码地址：https://github.com/yeyupiaoling/PPASR/tree/release/2.4.x

2022-01-26

PPASR中文语音识别（最终级）模型（大数据集）

PPASR中文语音识别（最终级）模型（大数据集训练的），源码地址：https://github.com/yeyupiaoling/PPASR/tree/release/2.4.x

2021-12-07

对语音识别结果加上标点符号模型

对语音识别结果加上标点符号，使用教程：https://yeyupiaoling.blog.csdn.net/article/details/122474859

2022-01-13

Pytorch实现的流式与非流式语音识别模型（数据集：AIShell）

Pytorch实现的流式与非流式语音识别模型（数据集：AIShell），源码地址为：https://github.com/yeyupiaoling/MASR

2021-12-26

Pytorch实现的流式与非流式语音识别模型（数据集：free_st_chinese_mandarin_corpus）

Pytorch实现的流式与非流式语音识别模型（数据集：free_st_chinese_mandarin_corpus），源码地址为：https://github.com/yeyupiaoling/MASR

2021-12-26

Pytorch实现的流式与非流式语音识别模型（数据集：thchs30）

Pytorch实现的流式与非流式语音识别模型（数据集：thchs30），源码地址为：https://github.com/yeyupiaoling/MASR

2021-12-26

基于深度学习实现数千种动物识别

基于深度学习实现数千种动物识别，使用Flask提供接口，提供给Android调用，提供Android应用调用程序。还有GUI界面演示。

2022-07-05

基于PaddlePaddle实现的语音合成工具

基于PaddlePaddle实现的语音合成工具，包含GUI界面操作和Web接口，以及简单示例。视频教程：https://www.bilibili.com/video/BV1G34y1s744

2022-06-27

基于深度学习框架ONNX的人脸识别系统

基于深度学习框架ONNX的人脸识别系统，包含了使用图片路径进行识别、使用摄像头进行识别、提供Web接口的识别。包含人脸检测、人脸识别、年龄性别识别、人脸关键点识别使用教程视频：https://www.bilibili.com/video/BV13N4y1G7Rc

2022-06-24

基于Pytorch实现的EcapaTdnn声纹识别模型（melspectrogram）

2022-05-03

基于Pytorch实现的EcapaTdnn声纹识别模型（spectrogram）

2022-05-04

基于Pytorch实现的EcapaTdnn声纹识别大模型（melspectrogram）

2022-05-06

基于Pytorch实现的EcapaTdnn声纹识别大模型（spectrogram）

2022-05-07

基于PaddlePaddle实现的EcapaTdnn声纹识别大模型（spectrogram）

2022-05-02

基于PaddlePaddle实现的EcapaTdnn声纹识别模型（melspectrogram）

2022-04-25

基于PaddlePaddle实现的EcapaTdnn声纹识别模型（spectrogram）

2022-04-26

基于PaddlePaddle实现的EcapaTdnn声纹识别大模型（melspectrogram）

2022-05-01

PaddlePaddle实现的EcapaTdnn声纹识别超大数据melspectrogram

基于PaddlePaddle实现的EcapaTdnn声纹识别超大数据模型，这个模型使用的是梅尔频谱（melspectrogram）注意是legacy2分支，源码地址：https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-11-08

MASR的V2版本Conformer训练超大数据集

MASR的V2版本训练Conformer模型文件，使用Fbank，Pytorch，训练数据为超大数据集，13000+小时。源码地址：https://github.com/yeyupiaoling/MASR/tree/release/2.3.x

2023-01-29

PPASR的V2版本Conformer模型文件

PPASR的V2版本训练Conformer模型文件，使用Fbank，纯PaddlePaddle，训练数据Wenetspeech。源码地址：https://github.com/yeyupiaoling/PPASR/tree/release/2.4.x

2022-11-08

PPASR的V2版本Conformer训练超大数据集

PPASR的V2版本训练Conformer模型文件，使用Fbank，纯PaddlePaddle，训练数据为超大数据集，13000+小时。源码地址：https://github.com/yeyupiaoling/PPASR/tree/release/2.4.x

2022-11-11

PPASR的V2版本DeepSpeech2模型文件

PPASR的V2版本训练DeepSpeech2模型文件，使用Fbank，纯PaddlePaddle，训练数据Wenetspeech。源码地址：https://github.com/yeyupiaoling/PPASR/tree/release/2.4.x

2022-11-08

PPASR中文语音识别（最终级）模型（大数据集）

PPASR中文语音识别（最终级）模型（大数据集训练的），源码地址：https://github.com/yeyupiaoling/PPASR/tree/release/2.4.x

2021-12-07

基于PaddlePaddle声纹识别模型全部模型参数文件

基于PaddlePaddle声纹识别模型全部模型参数文件，源地址：https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle

2023-08-28

基于Pytorch声纹识别模型全部模型参数文件

基于Pytorch声纹识别模型全部模型参数文件，源码地址：https://github.com/yeyupiaoling/VoiceprintRecognition-Pytorch

2023-08-28

基于PaddlePaddle声纹识别模型EcapaTdnn全部模型参数文件

基于PaddlePaddle实现的EcapaTdnn声纹识别，训练中文数据集、更大数据集、超大数据集，各种预处理方法。源码地址：https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/release/0.x

2023-08-11

基于Pytorch声纹识别模型EcapaTdnn全部模型参数文件

基于Pytorch实现的EcapaTdnn声纹识别，训练中文数据集、更大数据集、超大数据集，各种预处理方法。源码地址：https://github.com/yeyupiaoling/VoiceprintRecognition-Pytorch/tree/release/0.x

2023-08-11

自定义中文语料约2千万条数据

自定义中文语料，约2千万条数据，用于训练kenlm模型，使用地址：https://github.com/yeyupiaoling/PPASR/blob/develop/docs/beam_search.md#%E8%AE%AD%E7%BB%83%E8%87%AA%E5%B7%B1%E7%9A%84%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B

2022-11-14

3000+小时的中文普通话语音数据集

3000+小时的中文普通话语音数据集，可用于语音识别训练，使用地址：https://github.com/yeyupiaoling/PPASR

2022-11-14

TA关注的人

Pytorch实现的EcapaTdnn声纹识别超大数据模型（melspectrogram）

Pytorch训练EcapaTdnn声纹识别超大数据模型（spectrogram）

基于Pytorch实现的EcapaTdnn声纹识别模型（melspectrogram）

基于Pytorch实现的EcapaTdnn声纹识别模型（spectrogram）

基于Pytorch实现的EcapaTdnn声纹识别大模型（melspectrogram）

基于Pytorch实现的EcapaTdnn声纹识别大模型（spectrogram）

基于PaddlePaddle实现的EcapaTdnn声纹识别大模型（spectrogram）

基于PaddlePaddle实现的EcapaTdnn声纹识别模型（melspectrogram）

基于PaddlePaddle实现的EcapaTdnn声纹识别模型（spectrogram）

基于PaddlePaddle实现的EcapaTdnn声纹识别大模型（melspectrogram）

PaddlePaddle实现的EcapaTdnn声纹识别超大数据（spectrogram）

PPASR流式与非流式语音识别模型（LibriSpeech数据集）

PPASR中文语音识别（最终级）模型（大数据集）

对语音识别结果加上标点符号模型

Pytorch实现的流式与非流式语音识别模型（数据集：AIShell）

Pytorch实现的流式与非流式语音识别模型（数据集：free_st_chinese_mandarin_corpus）

Pytorch实现的流式与非流式语音识别模型（数据集：thchs30）

基于深度学习实现数千种动物识别

基于PaddlePaddle实现的语音合成工具

基于深度学习框架ONNX的人脸识别系统

基于Pytorch实现的EcapaTdnn声纹识别模型（melspectrogram）

基于Pytorch实现的EcapaTdnn声纹识别模型（spectrogram）

基于Pytorch实现的EcapaTdnn声纹识别大模型（melspectrogram）

基于Pytorch实现的EcapaTdnn声纹识别大模型（spectrogram）

基于PaddlePaddle实现的EcapaTdnn声纹识别大模型（spectrogram）

基于PaddlePaddle实现的EcapaTdnn声纹识别模型（melspectrogram）

基于PaddlePaddle实现的EcapaTdnn声纹识别模型（spectrogram）

基于PaddlePaddle实现的EcapaTdnn声纹识别大模型（melspectrogram）

PaddlePaddle实现的EcapaTdnn声纹识别超大数据melspectrogram

MASR的V2版本Conformer训练超大数据集

PPASR的V2版本Conformer模型文件

PPASR的V2版本Conformer训练超大数据集

PPASR的V2版本DeepSpeech2模型文件

PPASR中文语音识别（最终级）模型（大数据集）

基于PaddlePaddle声纹识别模型全部模型参数文件

基于Pytorch声纹识别模型全部模型参数文件

基于PaddlePaddle声纹识别模型EcapaTdnn全部模型参数文件

基于Pytorch声纹识别模型EcapaTdnn全部模型参数文件

自定义中文语料约2千万条数据

3000+小时的中文普通话语音数据集

WeNet中的Fbank有没有对齐的Python版本？

请问wave.open读取的流怎把它转换为跟soundfile一样的numpy结果呢？

中英文混合端到端语音识别模型

在Android上如果对音频做快速傅里叶变换

Android如何不预览从摄像头中获取视频帧？

Android新版本模拟器要输入密码问题

在paddlepaddle中的book里“识别数字”如何引用其他训练数据