深度学习
文章平均质量分 87
什么都一般的咸鱼
一个正在入门深度学习的暂时头发茂盛的小白。
更博很慢很慢,博文以实用和工程能力为主,致力于成为一位工程能力特别特别特别强的咸鱼。
欢迎关注,有什么问题我会尽力去回答帮助。
GitHub:https://github.com/ooooxianyu
展开
-
手势识别(二) - 静态手势动作识别
我公司的科室开始在公众号上规划一些对外的技术文章了,包括实战项目、模型优化、端侧部署和一些深度学习任务基础知识,而我负责人体图象相关技术这一系列文章,偶尔也会出一些应用/代码解读等相关的文章。文章在同步发布至公众号和博客,顺带做一波宣传。有兴趣的还可以扫码加入我们的群。(文章有写的不好的地方请见谅,另外有啥错误的地方也请大家帮忙指出。)(另外,文章引用的图片or代码如有侵权,请联系我删除。)微信公众号:AI炼丹术技术交流群可以从公众号上获取,可以备注是咸鱼的博客上来的。????手势识别(二)原创 2021-12-20 16:50:10 · 12602 阅读 · 2 评论 -
手势识别(一) - 项目概述与简单应用介绍
我公司的科室开始在公众号上规划一些对外的技术文章了,包括实战项目、模型优化、端侧部署和一些深度学习任务基础知识,而我负责人体图象相关技术这一系列文章,偶尔也会出一些应用/代码解读等相关的文章。文章在同步发布至公众号和博客,顺带做一波宣传。有兴趣的还可以扫码加入我们的群。(文章有写的不好的地方请见谅,另外有啥错误的地方也请大家帮忙指出。)(另外,文章引用的图片or代码如有侵权,请联系我删除。)微信公众号:AI炼丹术技术交流群可以从公众号上获取,可以备注是咸鱼的博客上来的。????【手把手教学】手原创 2021-12-20 16:43:54 · 5377 阅读 · 0 评论 -
[深度学习 - 发现有趣项目] 动漫图生成手绘草图 Anime2Sketch
我公司的科室开始在公众号上规划一些对外的技术文章了,包括实战项目、模型优化、端侧部署和一些深度学习任务基础知识,而我负责人体图象相关技术这一系列文章,偶尔也会出一些应用/代码解读等相关的文章。文章在同步发布至公众号和博客,顺带做一波宣传。有兴趣的还可以扫码加入我们的群。(文章有写的不好的地方请见谅,另外有啥错误的地方也请大家帮忙指出。)微信公众号:AI炼丹术技术交流群可以从公众号上获取,可以备注是咸鱼的博客上来的。????【趣味AI项目】动漫图生成手绘草图 Anime2Sketch技术简述原创 2021-10-25 17:31:06 · 3392 阅读 · 0 评论 -
[人体图像相关技术] -(二)行人检测数据集 - 介绍(含人像分割数据集)
我公司的科室开始在公众号上规划一些对外的技术文章了,包括实战项目、模型优化、端侧部署和一些深度学习任务基础知识,而我负责人体图象相关技术这一系列文章。文章在同步发布至公众号和博客,顺带做一波宣传。有兴趣的还可以扫码加入我们的群。(文章有写的不好的地方请见谅,另外有啥错误的地方也请大家帮忙指出。)微信公众号:AI炼丹术技术交流群可以从公众号上获取,可以备注是咸鱼的博客上来的。????行人检测数据集 - 介绍一、目标检测 - 行人数据集1. INRIA Person Dataset静态行人数据原创 2021-09-11 14:32:52 · 14047 阅读 · 1 评论 -
[人体图像相关技术] -(一)概述
我公司的科室开始在公众号上规划一些对外的技术文章了,包括实战项目、模型优化、端侧部署和一些深度学习任务基础知识,而我负责人体图象相关技术这一系列文章。文章在同步发布至公众号和博客,顺带做一波宣传。有兴趣的还可以扫码加入我们的群。(文章有写的不好的地方请见谅,另外有啥错误的地方也请大家帮忙指出。)微信公众号:AI炼丹术技术交流群可以从公众号上获取,可以备注是咸鱼的博客上来的。????人体图像相关技术 - 概述(图源:https://github.com/xuebinqin/U-2-Net)一原创 2021-09-07 09:27:00 · 1093 阅读 · 0 评论 -
[深度学习 - TTS自学之路] 基于fastspeech2 学习TTS流程以及部分代码梳理
深度学习方案 - TTS流程以及代码梳理 - fastspeech2参考源码:https://github.com/ming024/FastSpeech2最近好长一阵子没有写文章了,一方面是公司里做的一些项目不好公开写成文章,另一方面由于教育双减政策的影响,很多项目临时被停止了,所以这阵子,对原项目的维护以及新领域(音频)方面的自研学习,基本都在忙着,个人时间很少。另外打个小广告,科室这边也逐渐对外写一些技术文章,主要在微信公众号:“ AI炼丹术 ”上发布。目前发布了很多关于端侧优化部署的文章、O原创 2021-08-25 14:40:34 · 4222 阅读 · 2 评论 -
[yoloV5项目 - error] torch.load() 出现 No module named ‘models‘
源码路径:https://github.com/ultralytics/yolov5yoloV5 官方项目爬坑最近整理了下我之前github上传的一个人脸识别项目,然后把一些组件稍微整理了一下。还有就是最近在玩一个手势检测的项目,也用到了yoloV5的源码。但在加载模型torch.load()的时候就出现了ModuleNotFoundError: No module named 'models'这个问题。也有粉丝跟我反馈说出现了这个问题。如下图。(因为之前上传的时候,我是在pycharm设置了y.原创 2021-05-06 09:57:49 · 22995 阅读 · 9 评论 -
[深度学习 - 发现有趣项目] masking-gan 人脸生成笑脸表情
参考代码来源于:https://github.com/tgeorgy/mgan人脸生成笑脸表情1、有趣的项目之前没事会经出翻github看项目,也会发现很多有趣的项目。迫于没什么时间,就过一眼就关了。所以就特地开了这个发现有趣项目的板块,想有时间的时候就把这些有趣的项目记录下来。但刚开始写之后,翻github就想找有趣的项目,却怎么也找不到。(amazing!????)所以我就换了个思路。平时没事我也会经出刷抖音,过一段时间就会有新出的特效什么的,其实就很有意思。而这些实际上都是用深度学习实现的原创 2021-03-13 16:13:59 · 3209 阅读 · 4 评论 -
[深度学习 - NLP项目] 自然语言理解 - AlBert模型
参考代码来源于:https://github.com/brightmart/albert_zh记录一下nlp开始学习的历程新的一年刚开始,就碰上了一个基本都是NLP的项目;一直想找机会学NLP,现在正好遇上了。就是项目是个硬骨头,有点难啃,好在组内有几个NLP大神带着。所以也稍微记录一下我nlp开始学习的历程。(可能有些地方理解错误、说错的,也请各位大佬帮忙指正。????)刚开始遇到的时候想从基础上学起,比如TF-IDF、word2vec这些。但是由于知识量从头来的话,太多太杂了。然后大佬也是说直原创 2021-03-05 18:53:03 · 2257 阅读 · 3 评论 -
[深度学习 - 发现有趣项目] neural-style-pt 艺术风格迁移
参考代码来源于 https://github.com/ProGamerGov/neural-style-ptneural-style-pt 艺术风格迁移一如既往的开头最近事情比较少,人闲着也闲着。趁着周末到处跑,临近新年,也没怎么学习。想写点什么博文,但是又不知道写啥哈哈哈哈哈。于是,我想把公众号或者github(推荐专栏)看到的一些有趣的项目记录下来。这是个风格迁移的项目。这种应该算生成类项目(GAN这类),但我也不确定这个模型的一些细节。对于这类项目我兴趣蛮大的,只是一直没有机会遇到这.原创 2021-01-27 17:49:59 · 2705 阅读 · 1 评论 -
[深度学习 - 技巧] tensorboard实时查看损失和权重的变化
tensorboard1. 安装tensorboard如果有安装tensorflow的话,应该会默认安装对应版本的tensorboard。因为我这边开发环境用的pytorch,所以没有安装tensorboard。可以通过pip安装。pip install tensorboard2. 代码块在自己的代码模块中添加这一块内容,我这里写的是每个epoch保存一次数据,当然数据量大,模型跑一个epoch慢的时候,可以自己选择n个batch保存一次。然后模型运行时候就会在目录中logs下生成一个log1原创 2020-12-16 14:48:33 · 11320 阅读 · 8 评论 -
[深度学习 - 实战项目] 实例分割 - yolact++
参考代码来源于 https://github.com/dbolya/yolact实例分割 yolact1. 环境配置首先将项目安装下来,或者git clone到自己本地。因为我这边跑的是yolact++(在data/config.py内设置),所以按官方要求是要安装DCNv2即执行下面代码。cd external/DCNv2python setup.py build develop这里因为我一开始用的pytorch1.6版本,所以一直安装不下。后来把版本降低后就可以正常执行安装了。版本.原创 2020-12-12 17:09:54 · 2055 阅读 · 6 评论 -
[深度学习 - 部署笔记] docker部署 pytorch项目
docker部署tornado项目原创 2020-11-17 11:03:05 · 3799 阅读 · 2 评论 -
[深度学习 - 实战项目] 以图搜图Resnet+LSH-特征编码/图像检索/相似度计算
参考代码来源于 http://github.com/yinhaoxs/ImageRetrieval-LSH以图搜图1. 写在最前面入职新公司以后一直在搞项目,没什么时间写博客。最近一个项目是以图搜图项目,主要用到的技术就是目标检测(yolo)+图像检索(ResNet+LSH)。目标检测就不用多说了,成熟和现成的代码一抓一大把,主要问题就是在优化提升精度和性能上的摸索。图像检索的技术也挺多,但是网上的资源相对较少,所以记录一下这段时间用到的一个代码。最开始直接看到的是这个作者的ImageRe.原创 2020-10-24 16:05:31 · 12650 阅读 · 57 评论 -
[深度学习 - 网络选型] CNN经典卷积网络模型
CNN经典网络模型LeNet (1998)上图展示的是LeNet-5的网络结构图。C代表卷积层,S代表下采样层。LeNet作为较早的卷积神经网络代表,提出了权重共享的思想。例如在C1(第一层卷积层)原图经过六个卷积核得到六个特征图。这里的卷积核就是权重,原图上所有的像素共享一个卷积核,经过滑动扫描得到一张特征图。它的作用:降低整个网络的参数量;可以学习到图像的局部特征,局部的结构信息。S为下采样层,实际就是降低分辨率。它的作用:使得特征更加抽象化,网络更容易收敛;降低分辨率,使得计算速度加原创 2020-08-24 16:16:32 · 627 阅读 · 0 评论 -
[深度学习 - 目标检测总结] retinaNet & RFBNet
通过这个链接????进行复习学习。https://github.com/scutan90/DeepLearning-500-questions目标检测前面两节讲了,two-stage、one-stage目标检测算法;Two-Stage检测器(如Faster R-CNN、FPN)效果好,但速度相对慢One-Stage检测器(如YOLO、SSD)速度快,但效果一般retinaNet是针对one-stage算法准确率不高做出的改进。one-stage和two-stage在算法上效果差异存在的问原创 2020-08-22 16:08:55 · 553 阅读 · 0 评论 -
[深度学习 - 目标检测总结] one-stage 目标检测算法
通过这个链接????进行复习学习。https://github.com/scutan90/DeepLearning-500-questions目标检测目标检测(Object Detection)就是要从图像上找到目标。存在的难点主要有:同一种目标可能有不同外观、形状、姿态;同一张图片场景可能有不同的环境因素干扰(光照、遮挡、色差);目标检测要检测目标在图像中的位置,目标可能会出现在图像中任意位置,而且同一个位置可能有不同大小、角度的目标。One-stage单次目标检测算法(包括SSD系列和YOLO原创 2020-08-22 15:44:05 · 1785 阅读 · 0 评论 -
[深度学习 - 实操笔记] 注意力机制
注意力机制注意力机制参考这篇博客中的部分:https://blog.csdn.net/jiaowoshouzi/article/details/89073944从seq2seq说起学完深度学习之后,我知道seq2seq这种编解码模型经常用在翻译软件上。也就是说,要翻译的那句话首先会在一个编码模型上进行语义编码(压缩),将这段话做了个总结,然后传输给一个解码模型,解码模型通过这个总结翻译成最终结果。但是这个模型是由缺陷的。举个栗子,综艺节目经常有一个娱乐项目:你画我猜。假设题目:人躺在地上原创 2020-08-21 13:04:00 · 862 阅读 · 0 评论 -
[深度学习 - 目标检测总结] two-stage 目标检测算法
通过这个链接????进行复习学习。https://github.com/scutan90/DeepLearning-500-questions目标检测 two-stage目标检测(Object Detection)就是要从图像上找到目标。存在的难点主要有:同一种目标可能有不同外观、形状、姿态;同一张图片场景可能有不同的环境因素干扰(光照、遮挡、色差);目标检测要检测目标在图像中的位置,目标可能会出现在图像中任意位置,而且同一个位置可能有不同大小、角度的目标。目标检测算法分类:深度学习目标检测算法主原创 2020-08-20 21:07:48 · 3084 阅读 · 0 评论 -
[深度学习 - 实战项目] 行为识别——基于骨架提取/人体关键点估计的行为识别
行为识别——骨架提取/人体关键点估计我们可以通过深度学习,检测到一个人,但是那个人在做什么我们不知道。所以我们就想让神经网络既检测到人,又知道他在做什么。也就是对这个人的行为进行识别。一个人的行为可以有很多种,可以跑、跳、走、跌倒、打架……有一些我们可以看第一眼就知道他在干嘛,有些我们必须看一段才知道他在干嘛。所以我们要用神经网络来识别行为,就可以分成单帧图片的识别和连续帧图片的识别。如果是单帧图片的识别,例如举手、摆个姿势……等简单的动作,我们可以直接用卷积网络、或者直接用yolo进行训练。在数据集原创 2020-07-29 21:19:32 · 35465 阅读 · 106 评论 -
[深度学习 - 实战项目] CRAFT&CRNN_seq2seq图片文字提取
图片文字提取项目检测网络:CRAFT,基于字符区域感知的文本检测;CRAFT源码:https://github.com/clovaai/CRAFT-pytorch识别网络:crnn+seq2seq,编解码结构,文字识别;crnn+seq2seq源码:https://github.com/bai-shang/crnn_seq2seq_ocr_pytorch1. 写在最前面项目花了一个星期,基本上也是去github上拿现有得模型拼凑起来得项目。效果也达不到商业级别。只可供学习交流,也欢迎各位大佬大原创 2020-07-16 16:20:48 · 4242 阅读 · 33 评论 -
[推荐系统 06] 基于深度学习推荐系统——DeepFM模型
基于深度学习推荐系统1. 基础知识(1)one-hot编码带来的问题我们知道,当我们遇到标签类/离散/类别型的数据,我们通过会把它变成one-hot编码。但是这样会使得数据特别庞大而且稀疏。而广告计算和推荐算法很多数据的特征是非常多的,而且大部分会是离散的数据,这样一来数据的稀疏性就会变得非常大。因此,FM主要就是为了解决数据稀疏的情况下,特征怎样组合的问题。(2)因式分解机(FM)因式分解机是一种基于LR模型的高效的学习特征间相互关系;对于因子分解机FM来说,最大的特点是对于稀疏的数据具有原创 2020-07-10 20:23:21 · 718 阅读 · 0 评论 -
[深度学习 - 实战项目] yoloV5人脸侦测&arcFace人脸识别&silentFace静态活体检测
yoloV5&arcFace人脸识别yoloV4&V5已经出来几个月了啊。刚接触yolo的时候,是大三下的时候,那时候导师给了个项目,就是侦测人体加上骨架提取的一个项目。我当时也没只是想先搞个毕业设计出来。然后就查资料,找到了yoloV3,下了源码。在linux系统上跑了起来。当时最大的感受就是,我这破笔记本电脑也能跑得掉,这代码真牛逼。然后到现在的yoloV4、V5,可以看出来网络结构基本没变。仅仅在一些小组件上优化:优化了数据集、优化了子结构/激活函数、加了一些技巧在拼接上、重新原创 2020-07-13 14:09:23 · 30429 阅读 · 114 评论 -
[深度学习进阶 - 实操笔记] 损失设计
损失设计原创 2020-07-02 17:39:17 · 399 阅读 · 0 评论 -
深度学习基础 - 基础笔记复习(自问自答)
深度学习基础1. 什么是感知机?如何训练感知机?感知机,也就是单个神经元。可以理解为广义线性回归 Y = f(WX + B);即它可以接收信号X,并加上偏值,通过一个激活函数输出。但是单个感知机的能力很弱(从它只能处理二分类线性可分问题可以看出),因此,我们可以引入多个神经元,多层神经元来提高它的能力。(多个多层神经元构成神经网络。)训练感知机的方法就是利用梯度下降法,反向传播。因此我们需要一个loss,即输出值和真实值之间的距离,并使用梯度下降法在训练中不断缩小他们的差距。(loss=(y-y‘)^原创 2020-07-01 17:56:57 · 1373 阅读 · 0 评论 -
深度学习 - 理论笔记总结
深度学习笔记:1. 描述常用3种IOU,分别针对那种情况使用?① 交并比:交集/并集。即框和框的重叠的程度。为了删除一些同目标位置重叠的框。② 最小IOU:最小面积框/并集。为了删除预测框在真实框内部,且框住部分不完整的情况。③ 最大IOU:最大面积框/并集。2. 描述数据增强的常用手段,yoloV4使用的手段?数据增强:(1) 裁剪:①中心裁剪,② 随机裁剪,③ 随机长宽比裁剪, ④ 上下左右中心裁剪, ⑤ 上下左右中心裁剪后翻转;(2)翻转和旋转:① 水平翻转, ② 垂直翻转, ③ 随原创 2020-06-30 15:27:22 · 1122 阅读 · 0 评论 -
[ 深度学习初识 - 实操笔记 ] 全连接神经网络-手写数字识别项目
1. 神经网络(1)感知机一个神经元。感知机接收多个输入信号,输出一个信号,与广义线性回归类似 ,即有Y = WX+B 。广义线性回归中有核函数,在感知机中称为激活函数(提供非线性能力),在感知机中,激活函数常用 sigmoid函数。广义线性回归和感知机算法的训练都是由梯度下降法,加上正则化降低损失的。(2)多层神经网络 MLP多个感知机,分布在多层神经网络上,即神经网络按一层一层构...原创 2020-03-31 23:32:27 · 880 阅读 · 0 评论 -
[深度学习初识 - 实操笔记] 卷积神经网络-MTCNN人脸侦测
卷积神经网络1. 全连接与卷积神经网络的区别(1)全连接神经网络:一个神经元看一个数据,一个图片有CWH个数据,计算量大,而且前一层的信息全盘接收。(2)卷积神经网络:每个神经元可通过看一部分的局部信息得到一个结果,这些局部信息可以相互重叠。相比全连接,任务减轻了,计算量也减小了。(卷积核是通过学习自动生成的)2. 卷积神经网络参数nn.Conv2d(3,16,3,1,padding=1...原创 2020-05-04 10:10:04 · 931 阅读 · 0 评论 -
[深度学习初识 - 实操笔记] RNN循环神经网络-验证码识别项目
RNN循环神经网络1. RNN的缺陷① 并行化计算能力差;② 目前主要用于输出层和框架。2. RNN神经单元① 将输出的结果ht 作为反馈,供下一次循环计算。——输入结构(xt,ht)(使网络具有记忆能力;用记忆和当前状态去决定下一个结果。因此不能并行操作。)② 使用在 语音/句子,具有先后时序的数据。③ 神经元对输入的数量不敏感,可以输入任意长度的数据。(RNN作为输入层/输出层...原创 2020-05-04 10:46:41 · 566 阅读 · 0 评论 -
[深度学习初识 - 实操笔记] GAN生成式对抗网络-动漫人脸生成
生成对抗神经网络1. 流派:GAN、FLOW流、VAE、pixeLCM、pixeLRM2.GAN(无监督)(1)判别网络用神经网络充当loss。即判别器获取输入图片(随机分布生成)和真实图片对比,利用反向传播算法使随机生成图片逼近真实图片。(2)生成网络第一次固定权重,按随机分布生成图片,放入判别器。生成的图片服从分布。(3)训练目标判别器训练:判别生成图片和真实图片的真假越来越准确。生成器训练:生成的图片,使得判别器判别不出真假。判别器和生成器对抗式训练。判别器和生成器一开始不能够太原创 2020-05-10 13:32:31 · 2811 阅读 · 3 评论 -
[深度学习初识 - 实操笔记] DRL强化学习网络-训练gym游戏
强化学习网络1. 强化学习主要分为:基于模型学习和无模型学习2. 强化学习(试错学习)(1)基本概念:个人状态state和大脑决策Agent判定当前行为action;当前行为影响环境environment变化,环境变化后作出评估(奖励)reward。强化学习是大脑决策(Agent)与环境之间一种学习和反馈。(2)规则:状态会因环境变化;决策行为会因状态变化;环境会因行为变化——马尔科夫链。三者之间相互影响。给定环境变化后,好/坏——奖励/惩罚。不断训练使得奖励最大化。3. 基础知识(DQN)(1原创 2020-05-11 17:38:08 · 952 阅读 · 0 评论 -
[深度学习进阶 - 实操笔记]Arc-face人脸识别
ArcFace人脸识别实操这里我使用这个链接下面的源码:github:Arc-Face-pytorch源码1. 数据准备(1)训练数据集:① 使用和源代码相同的数据集:CASIA-WebFace② 首先要对数据进行清洗。CASIA-WebFace 整个数据集有4.1GB,但是其中存在一些不清晰或者有问题的数据。可以通过网上整理的干净图片列表(cleaned_list.txt)自己进行整理。③ 标签:这里要自己生成标签txt。标签格式为:图片路径 类别。(有多少个人就有多少种类别)(2)测试训练原创 2020-05-25 16:02:39 · 5807 阅读 · 12 评论 -
模型评估指标总结笔记——回归/分类/聚类
评估指标:1. 回归指标(1)MAE (平均绝对值误差)是所有单个观测值与算术平均值的偏差的绝对值的平均。平均绝对误差可以避免误差相互抵消的问题,因而可以准确反映实际预测误差的大小。缺点:由于有绝对值,使得某些点无法求导。(2)MSE (均方误差)是反映估计量与被估计量之间差异程度的一种度量。缺点:MSE与我们目标变量的量纲不一样。(3)RMSE (平方根误差)是预测值与真实值偏差的平方与观测次数n比值的平方根。解决了上述两种误差的缺点。缺点:用了平均误差,而平均值对异常点比较敏感。2. 分原创 2020-05-30 16:53:34 · 889 阅读 · 0 评论 -
[深度学习进阶 - 实操笔记] 模型压缩- 剪枝/量化/蒸馏/AutoML
模型压缩- 剪枝/量化/蒸馏/AutoML原因:深度学习计算复杂度高,参数冗余。解决方式:(1)线性或非线性量化。(2)结构或非结构剪枝。(3)网络结构搜索。(4)权重矩阵的低秩分解。(蒸馏)目的:优化精度、性能、存储……使得可以在一些场景和设备上进行相应模型的部署。1. 剪枝(1)剪枝位置的判定一般根据权重。权重越小,证明该神经元的作用越小。(2)剪枝的方式:删去网络层上的权重的向量/整个神经元/单个像素(数据)。由于矩阵操作的并行化,减去单个像素或者向量并不能减少计算量。即有的硬件原创 2020-06-01 11:30:18 · 2504 阅读 · 0 评论 -
[深度学习进阶 - 实操笔记] 语音识别基础
语音识别基础1. 深度学习在语音领域上的应用(1)语音识别(2)语音唤醒(3)语音命令(4)声纹识别(5)生成语音2. 音频领域基本概念(1)采样率:每秒采集数据的次数。一般是8000Hz、16000Hz…采样率越高,音频损失越小。根据奈奎斯特采样定理:当采样率高于最高频率2倍以上,音频数据就不会失真。因此处理数据的采样率选择,一般只要高于最高频率2倍以上就行。(2)采样精度:每次采样数据的位数。即保存数据的精度:一般为一字节(8位)、两字节(16位)…(3)通道数:存在几路音频。(原创 2020-06-06 13:42:02 · 2346 阅读 · 1 评论 -
[深度学习进阶 - 实操笔记] 有关的模型部署(pytorch)
神经网络模型部署1. 常见的模型部署方式:(1)服务器:① HTTP 网页协议、 ② socket(2)PC: ① pt(pytorch内置打包API)、② onnx:支持跨平台和tensorRT部署方式、③ tvm…(3)手机:①安卓、 ② IOS……同样可以通过调用onnx进行部署。(4)IOT部署: ① 英伟达Jetson:支持cuda、② 华为海思、 ③ 瑞芯微、 ④ 树莓派(cpu)……2. FlaskFlask使用说明:官方文档通过网页端的接收和发送与神经网络进行交互。3. P原创 2020-06-06 13:57:01 · 943 阅读 · 0 评论 -
[深度学习进阶 - 实操笔记] 语音识别speech_commands数据集
语音识别训练过程前几天简单学了下语音识别的基础知识。(语音识别基础知识)理解了深度学习如何处理语音数据,并且识别语音。所以我就尝试着用学习时候的网络(如下)跑Speech-commands数据集。从里面挑了十个语音类别。但是效果并不好。# 只用到了卷积 对频谱图进行训练class Net(torch.nn.Module): def __init__(self): super().__init__() self.seq = torch.nn.Sequentia原创 2020-06-10 16:58:19 · 5329 阅读 · 8 评论 -
[深度学习 - 实操笔记] yoloV3多物体追踪-自己编写pytorch代码
深度学习目标跟踪1. 实质:通过卷积神经网络得到特征图,输出分类和位置。2. 目标跟踪的分类:① 单类多目标跟踪:MTCNN、Retinaface…② 多类多目标跟踪:RCNN、SPP-Net、Fast-RCNN/Faster-RCNN、SSD…(1) RCNN:通过聚类得到搜索框(强行缩放),在通过卷积提取特征,最后放入SVM进行分类。速度慢,准确率不高。(2) SPP-Net:主要使用了空间金字塔池化,对不同尺寸的框进行缩放。使得缩放后的尺寸,可以进入FC层,进行输出。(4)Fast原创 2020-06-18 14:48:19 · 1120 阅读 · 2 评论 -
[深度学习 - 实操笔记] UNet 语义分割-pytorch实现
图像分割(1)普通分割:前景和后景分割。(2)语义分割:每一类物体分割。(3)实例分割:每一个实例分割。却别于目标检测,图像分割师像素级别的分类。最早应用与医疗行业。1. 应用:(1) 医疗行业:器官图像分割…(2) 汽车行业:自动驾驶…2. 图像分割的结构:一般都是自编码结构自编码结构:下采样,上采用,(又称为哑铃结构,瓶颈结构)(1)下采样的方法:使用池化的下采样;使用较大步长的卷积下采样…(2)上采样的方法:①转置卷积:需要学习,参数较大,速度一般。② 像素插值: 信息丢失较原创 2020-06-18 16:15:30 · 4025 阅读 · 0 评论