深度学习
文章平均质量分 86
夜雨飘零1
他朝若是同淋雪,此生也算共白头!
展开
-
一键运行大语言模型服务,搭建聊天应用
本文介绍一个可以快速搭建本地大语言模型的聊天服务,模型和代码已全部提供,不需要联网运行。项目使用的是Qwen-7B-Int4模型,只需要8G显存的显卡都能流畅运行,无论是Windows还是Linux系统都支持使用。原创 2023-10-23 20:46:29 · 361 阅读 · 0 评论 -
基于Pytorch实现的声纹识别系统
本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型,不排除以后会支持更多模型,同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对应项目中的AAMLoss,对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接,除此之外,还支原创 2023-08-20 23:05:12 · 4963 阅读 · 5 评论 -
基于PaddlePaddle实现的声纹识别系统
本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型,不排除以后会支持更多模型,同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对应项目中的AAMLoss,对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接,除此之外,还支原创 2023-08-20 23:08:54 · 1602 阅读 · 0 评论 -
基于Pytorch实现的语音情感识别
本项目是一个语音情感识别项目,目前效果一般,供大家学习使用。后面会持续优化,提高准确率,如果同学们有好的建议,也欢迎来探讨。原创 2022-07-07 21:28:08 · 7496 阅读 · 12 评论 -
使用VAD将长语音分割的多段短语音
今天来介绍一个VAD的工具,VAD(Voice Activity Detection)语音活动检测,是可以把一段长语音以静音位置把语音分割成多段短语音,常见的就用WebRTC VAD工具,目前很多项目都是用这个工具,但是今天作者介绍的是另一个工具,这个工具是的一个小功能,这个功能是基于深度学习实现的。原创 2022-11-23 20:30:00 · 2530 阅读 · 0 评论 -
使用PaddlePaddle搭建一个可以识别数千中动物
使用PaddlePaddle实现的数千种动物识别,提供了简单的示例代码,GUI界面操作,还有Flask的Web接口,可以给Android调用。原创 2022-07-06 19:56:03 · 1144 阅读 · 0 评论 -
给语音识别文本加上标点符号
在语音识别中,模型输出的结果只是单纯的文本结果,并没有根据语法添加标点符号,本教程就是针对这种情况,在语音识别文本中根据语法情况加入标点符号,使得语音识别系统能够输出在标点符号的最终结果。原创 2022-01-13 15:29:47 · 11469 阅读 · 25 评论 -
PPASR流式与非流式语音识别
PPASR是一款基于PaddlePaddle实现的语音识别框架,PPASR致力于简单,实用的语音识别项目。可部署在服务器,Nvidia Jetson设备,未来还计划支持Android等移动设备。原创 2021-11-30 22:35:20 · 7767 阅读 · 35 评论 -
WenetSpeech数据集的处理和使用
WenetSpeech数据集包含了10000+小时的普通话语音数据集,所有数据均来自 YouTube 和 Podcast。采用光学字符识别(OCR)和自动语音识别(ASR)技术分别标记每个YouTube和Podcast录音。为了提高语料库的质量,WenetSpeech使用了一种新颖的端到端标签错误检测方法来进一步验证和过滤数据。原创 2021-11-30 20:43:06 · 7506 阅读 · 6 评论 -
基于PaddlePaddle实现的快速人脸识别模型
前言本项目参考了ArcFace的损失函数,同时参考了PP-OCRv2模型结构,意在开发一个模型较小,但识别准确率较高且推理速度快的一种人脸识别项目,该项目训练数据使用emore数据集,一共有85742个人,共5822653张图片,使用lfw-align-128数据集作为测试数据。源码地址:https://github.com/yeyupiaoling/PaddlePaddle-MobileFaceNets数据集准备本项目提供了标注文件,存放在dataset目录下,解压即可。另外需要下载下面这两个数据原创 2021-11-03 15:32:48 · 3410 阅读 · 17 评论 -
基于Pytorch实现的快速人脸识别模型
MobileFaceNet本项目参考了ArcFace的损失函数结合MobileNet,意在开发一个模型较小,但识别准确率较高且推理速度快的一种人脸识别项目,该项目训练数据使用emore数据集,一共有85742个人,共5822653张图片,使用lfw-align-128数据集作为测试数据。源码地址:https://github.com/yeyupiaoling/Pytorch-MobileFaceNet数据集准备本项目提供了标注文件,存放在dataset目录下,解压即可。另外需要下载下面这两个数据集,原创 2021-11-03 15:25:39 · 6117 阅读 · 37 评论 -
PPASR语音识别(进阶级)
PPASR(进阶级)基于PaddlePaddle2实现的端到端自动语音识别,相比入门级,进阶级从三个方面来提高模型的准确率,首先最主要的是更换了模型,这次采用了DeepSpeech2模型,DeepSpeech2是2015年百度发布的语音识别模型,其论文为[《Baidu’s Deep Speech 2 paper》](http://proceedings.mlr.press/v48/amodei16.pdf) 。然后也修改了音频的预处理,这次使用了在语音识别上更好的预处理,通过用FFT energy计算线性谱原创 2021-09-18 09:36:29 · 1592 阅读 · 2 评论 -
基于Pytorch实现的声音分类
本项目是基于Pytorch的声音分类项目,旨在实现对各种环境声音、动物叫声和语种的识别。项目提供了多种声音分类模型,如EcapaTdnn、PANNS、ResNetSE、CAMPPlus和ERes2Net,以支持不同的应用场景。此外,项目还提供了常用的Urbansound8K数据集测试报告和一些方言数据集的下载和使用例子。用户可以根据自己的需求选择适合的模型和数据集,以实现更准确的声音分类。项目的应用场景广泛,可以用于室外的环境监测、野生动物保护、语音识别等领域。同时,项目也鼓励用户探索更多的使用场景,以推动原创 2021-08-20 20:12:48 · 30018 阅读 · 178 评论 -
基于Tensorflow2实现的中文声纹识别
前言本章介绍如何使用Tensorflow实现简单的声纹识别模型,首先你需要熟悉音频分类,没有了解的可以查看这篇文章《基于Tensorflow实现声音分类》 。基于这个知识基础之上,我们训练一个声纹识别模型,通过这个模型我们可以识别说话的人是谁,可以应用在一些需要音频验证的项目。不同的是本项目使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更原创 2021-07-06 21:20:59 · 2406 阅读 · 22 评论 -
基于Pytorch实现的声纹识别模型
本章介绍如何使用Pytorch实现简单的声纹识别模型,本项目参考了人脸识别项目的做法Pytorch-MobileFaceNet,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接。原创 2021-07-06 16:53:36 · 18783 阅读 · 65 评论 -
我的新书,《PaddlePaddle Fluid 深度学习入门与实战》已出版!
前言PaddlePaddle,又名飞桨,前生是百度公司与 2013 年自主研发的深度学习框架,在 2016 年 9 月的百度世界大会上,百度首席科学家吴恩达首次宣布开源 PaddlePaddle 深度学习框架,也是我国首款深度学习开源框架。笔者是2017年开始接触PaddlePaddle的,那是由于开源时间较短,所以能接触到相关资料相当有限,为了更多开发者能够熟悉使用 PaddlePaddle 这个这个框架,我在CSDN博客上分别编写了《我的PaddlePaddle学习之路》以及多篇实用教程,同时还出版了原创 2021-06-06 10:06:36 · 1875 阅读 · 10 评论 -
基于Pytorch实现人脸关键点检测模型MTCNN
前言MTCNN,Multi-task convolutional neural network(多任务卷积神经网络),将人脸区域检测与人脸关键点检测放在了一起,总体可分为P-Net、R-Net、和O-Net三层网络结构。它是2016年中国科学院深圳研究院提出的用于人脸检测任务的多任务神经网络模型,该模型主要采用了三个级联的网络,采用候选框加分类器的思想,进行快速高效的人脸检测。这三个级联的网络分别是快速生成候选窗口的P-Net、进行高精度候选窗口过滤选择的R-Net和生成最终边界框与人脸关键点的O-Net原创 2021-06-02 22:50:07 · 6681 阅读 · 26 评论 -
基于MXNET实现的年龄性别识别
年龄性别识别年龄性别识别,基于insightface功能模块开发的,支持多张人脸同时检测和识别。源码地址:https://github.com/yeyupiaoling/Age-Gender-MXNET环境安装mxnet,支持1.3~1.6版本,安装命令如下。pip install mxnet-cu101==1.5.0数据集默认支持以下三种数据集,将以下三个数据集下载解压到dataset目录下。http://afad-dataset.github.io/http://mmlab原创 2021-04-07 20:49:20 · 1371 阅读 · 1 评论 -
基于PaddlePaddle 2.0动态图实现的CRNN文字识别模型
CRNN本项目是PaddlePaddle 2.0动态图实现的CRNN文字识别模型,可支持长短不一的图片输入。CRNN是一种端到端的识别模式,不需要通过分割图片即可完成图片中全部的文字识别。CRNN的结构主要是CNN+RNN+CTC,它们分别的作用是,使用深度CNN,对输入图像提取特征,得到特征图。使用双向RNN(BLSTM)对特征序列进行预测,对序列中的每个特征向量进行学习,并输出预测标签(真实值)分布。使用 CTC Loss,把从循环层获取的一系列标签分布转换成最终的标签序列。CRNN的结构如下,一原创 2021-04-03 12:05:10 · 2310 阅读 · 5 评论 -
基于PaddlePaddle2.0验证码端到端的识别
验证码端到端的识别,是对《我的PaddlePaddle学习之路》笔记六——验证码端到端的识别 的升级,这篇文章是我18年初写的,基于当时的V2版本编写,现在有点过时了,突然想升级一下。在线运行在线运行:https://aistudio.baidu.com/aistudio/projectdetail/1679868创建数据列表和词汇表数据列表是为了方便训练是读取数据的。import osimport cv2def createDataList(data_path, list_path):原创 2021-03-23 19:27:49 · 844 阅读 · 3 评论 -
基于PaddlePaddle实现人脸关键点检测模型MTCNN
前一章我们已经介绍了常见的人脸数据集,在本章将要进行人脸识别的第二步人脸检测。在人脸识别任务中,首先是需要检查一张图片中是包含有人脸,然后把这个人脸裁剪出来,然后使用脸部的关键点进行人脸对齐,最后使用人脸对比方式完成人脸识别。MTCNN,Multi-task convolutional neural network(多任务卷积神经网络),将人脸区域检测与人脸关键点检测放在了一起,总体可分为P-Net、R-Net、和O-Net三层网络结构。它是2016年中国科学院深圳研究院提出的用于人脸检测任务的多任务神原创 2019-04-30 22:28:59 · 4222 阅读 · 10 评论 -
PPASR中文语音识别(入门级)
PPASR语音识别(入门级)本项目将分三个阶段分支,分别是入门级、进阶级和应用级分支,当前为入门级,随着级别的提升,识别准确率也随之提升,也更适合实际项目使用,敬请关注!PPASR基于PaddlePaddle2实现的端到端自动语音识别,本项目最大的特点简单,在保证准确率不低的情况下,项目尽量做得浅显易懂,能够让每个想入门语音识别的开发者都能够轻松上手。PPASR只使用卷积神经网络,无其他特殊网络结构,模型简单易懂,且是端到端的,不需要音频对齐,因为本项目使用了CTC Loss作为损失函数。在传统的语音识原创 2021-03-16 20:55:39 · 3557 阅读 · 40 评论 -
基于TNN在Android手机上实现图像分类
TNN:由腾讯优图实验室打造,移动端高性能、轻量级推理框架,同时拥有跨平台、高性能、模型压缩、代码裁剪等众多突出优势。TNN框架在原有Rapidnet、ncnn框架的基础上进一步加强了移动端设备的支持以及性能优化,同时也借鉴了业界主流开源框架高性能和良好拓展性的优点。原创 2020-09-06 11:29:00 · 3658 阅读 · 19 评论 -
基于MNN在Android手机上实现图像分类
MNN是一个轻量级的深度神经网络推理引擎,在端侧加载深度神经网络模型进行推理预测。目前,MNN已经在阿里巴巴的手机淘宝、手机天猫、优酷等20多个App中使用,覆盖直播、短视频、搜索推荐、商品图像搜索、互动营销、权益发放、安全风控等场景。此外,IoT等场景下也有若干应用。下面就介绍如何使用MNN在Android设备上实现图像分类。原创 2020-09-05 21:57:05 · 11893 阅读 · 16 评论 -
一行代码Android上实现人脸检测、关键点检测、口罩检测
一行代码实现人脸检测,人脸关键点检测和戴口罩检测。本项目是使用Paddle Lite 的C++实现的人脸检测,人脸关键点检测和戴口罩检测,并将编译好的动态库和静态库部署在Android应用上,在Android设备上实现人脸检测,人脸关键点检测和戴口罩检测,所以本应不会使用到C++开发,可以只使用笔者提供的JNI接口实现这些功能。在ai这个module是笔者在开发时使用到的,读者在使用这个项目时,完全可以删除掉,如果是看C++实现,也可以看这个module的源码。原创 2020-09-05 12:05:06 · 5510 阅读 · 15 评论 -
基于insightface实现的人脸识别和人脸注册
为了方便,写一个类完成所有的识别流程,开始编写人脸识别和人脸注册工具类,使用`insightface.app.FaceAnalysis()`可以获取模型对象,这里包含了三个模型,首先是人脸检测模型,然后是人脸特征提取模型,和最后的性别年龄识别模型。使用`model.prepare()`可以配置`ctx_id`指定使用哪一块GPU,如果是负数则是使用CPU执行预测,`det_thresh`配置的是人脸检测的阈值。`load_faces()`函数是加载人脸库中的人脸,用于之后的人脸识别对比。...原创 2020-08-30 12:51:34 · 15717 阅读 · 47 评论 -
基于PaddlePaddle实现的目标检测模型PP-YOLOE
本项目是基于[PaddleDetection](https://github.com/PaddlePaddle/PaddleDetection)实现的PP-YOLOE,PP-YOLOE是单阶段Anchor-free模型,其精度(COCO数据集mAP)和推理速度均优于YOLOv5模型,PP-YOLOE在COCO test-dev2017数据集上精度达到49.0%,在单卡V100上FP32推理速度为123.4FPS, V100上开启TensorRT下FP16推理速度为208.3FPS。其中还包含了X/L/M/S原创 2020-08-18 08:45:57 · 7426 阅读 · 18 评论 -
基于Paddle Lite在Android手机上实现图像分类
Paddle Lite是飞桨基于Paddle Mobile全新升级推出的端侧推理引擎,在多硬件、多平台以及硬件混合调度的支持上更加完备,为包括手机在内的端侧场景的AI应用提供高效轻量的推理能力,有效解决手机算力和内存限制等问题,致力于推动AI应用更广泛的落地。原创 2020-08-02 13:29:20 · 4869 阅读 · 9 评论 -
基于Pytorch实现的流式与非流式语音识别
MASR是一款基于Pytorch实现的语音识别框架,MASR致力于简单,实用的语音识别项目。可部署在服务器,Nvidia Jetson设备,未来还计划支持Android等移动设备。原创 2020-07-30 14:49:44 · 7852 阅读 · 14 评论 -
基于MTCNN和MobileFaceNet实现的人脸识别
前言本教程是教程是介绍如何使用Tensorflow实现的MTCNN和MobileFaceNet实现的人脸识别,并不介绍如何训练模型。关于如何训练MTCNN和MobileFaceNet,请阅读这两篇教程 MTCNN-Tensorflow 和 MobileFaceNet_TF ,下面就来介绍如何实现这两个模型实现三种人脸识别,使用路径进行人脸注册和人脸识别,使用摄像头实现人脸注册和人脸识别,通过HTTP实现人脸注册和人脸识别。实现本地图像识别...原创 2020-07-19 12:18:49 · 4248 阅读 · 2 评论 -
基于Kersa实现的中文语音声纹识别
本项目是基于VGG-Speaker-Recognition开发的,本项目主要是用于声纹识别,也有人称为说话人识别。本项目包括了自定义数据集的训练,声纹对比,和声纹识别。原创 2020-07-15 09:47:29 · 2111 阅读 · 10 评论 -
基于Pyramidbox实现的大规模人脸检测
今天来水一片文章,基于开源的大规模人脸检测编写的PaddlePaddle教程,为了方便训练预测,本教程做了一定的修改。这个模型虽然大,但是符合大规模人群中也可以准确地检测到人脸,就是遮挡比较严重也能正确检测。PyramidBox 是一种基于SSD的单阶段人脸检测器,它利用上下文信息解决困难人脸的检测问题。如下图所示,PyramidBox在六个尺度的特征图上进行不同层级的预测。该工作主要包括以下模块:LFPN、Pyramid Anchors、CPM、Data-anchor-sampling。原创 2020-07-09 10:55:01 · 1424 阅读 · 0 评论 -
Mediapipe框架在Android上的使用
MediaPipe是用于构建跨平台多模态应用ML管道的框架,其包括快速ML推理,经典计算机视觉和媒体内容处理(如视频解码)。下面是用于对象检测与追踪的MediaPipe示例图,它由4个计算节点组成:PacketResampler计算器;先前发布的ObjectDetection子图;围绕上述BoxTrakcing子图的ObjectTracking子图;以及绘制可视化效果的Renderer子图。原创 2020-07-08 11:43:15 · 12519 阅读 · 28 评论 -
基于PaddlePaddle实现的密度估计模型CrowdNet
CrowdNet模型是2016年提出的人流密度估计模型,论文为《CrowdNet: A Deep Convolutional Network for DenseCrowd Counting》,CrowdNet模型主要有深层卷积神经网络和浅层卷积神经组成,通过输入原始图像和高斯滤波器得到的密度图进行训练,最终得到的模型估计图像中的行人的数量。当然这不仅仅可以用于人流密度估计,理论上其他的动物等等的密度估计应该也可以。原创 2020-06-06 13:06:07 · 1301 阅读 · 2 评论 -
基于PaddlePaddle实现的目标检测模型SSD
SSD,全称Single Shot MultiBox Detector,是Wei Liu在ECCV 2016上提出的一种目标检测算法,截至目前是主要的检测框架之一,相比Faster RCNN有明显的速度优势,相比YOLO V1又有明显的mAP优势。本开源是基于PaddlePaddle实现的SSD,包括 MobileNetSSD,MobileNetV2SSD,VGGSSD,ResNetSSD。使用的是 VOC 格式数据集,同时提供了预训练模型和 VOC 数据的预测模型。原创 2020-06-02 21:29:30 · 4116 阅读 · 13 评论 -
双目摄像头测量距离
在计算机视觉中,可以通过双目摄像头实现,常用的有BM 算法和SGBM 算法等,双目测距跟激光不同,双目测距不需要激光光源,是人眼安全的,只需要摄像头,成本非常底,也用于应用到大多数的项目中。本章我们就来介绍如何使用双目摄像头和SGBM 算法实现距离测量。原创 2020-05-14 21:39:08 · 18634 阅读 · 28 评论 -
基于PaddlePaddle实现声纹识别
本章介绍如何使用PaddlePaddle实现简单的声纹识别模型,本项目参考了人脸识别项目的做法PaddlePaddle-MobileFaceNet ,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接。原创 2020-05-05 12:27:35 · 3315 阅读 · 6 评论 -
基于PaddlePaddle实现声音分类
本项目是基于PaddlePaddle的声音分类项目,旨在实现对各种环境声音、动物叫声和语种的识别。项目提供了多种声音分类模型,如EcapaTdnn、PANNS、ResNetSE、CAMPPlus和ERes2Net,以支持不同的应用场景。此外,项目还提供了常用的Urbansound8K数据集测试报告和一些方言数据集的下载和使用例子。用户可以根据自己的需求选择适合的模型和数据集,以实现更准确的声音分类。项目的应用场景广泛,可以用于室外的环境监测、野生动物保护、语音识别等领域。同时,项目也鼓励用户探索更多的使用场原创 2020-04-27 23:00:17 · 3586 阅读 · 9 评论 -
基于Tensorflow实现声音分类
环境准备主要介绍libsora,PyAudio,pydub的安装,其他的依赖包根据需要自行安装。安装libsora最简单的方式就是使用pip命令安装,如下:pip install pytest-runnerpip install librosa如果pip命令安装不成功,那就使用源码安装,下载源码:https://github.com/librosa/librosa/releases/...原创 2020-04-23 22:58:27 · 9473 阅读 · 96 评论 -
百度机器学习训练营笔记——问题回答
文章目录说明问题1:网络结构说明这个是使用PaddlePaddle训练cifar10数据集的一个例子问题1:网络结构问题:计算每层网络结构和输入输出尺寸和参数个数。不加BN?更深?每层的尺寸变化?更多结构?def convolutional_neural_network(img): print('输入层的shape:', img.shape) conv_pool_1 = ...原创 2019-11-17 12:05:04 · 668 阅读 · 0 评论