自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(104)
  • 收藏
  • 关注

原创 深度学习在图像处理中的应用(tensorflow2.4以及pytorch1.10实现)

本人在读研期间的研究方向是图像处理以及深度学习(主要是图像分类和目标检测)。在做深度学习时使用的是tensorflow深度学习框架,学习全是自学,很多资源都是在Github上找的。我发现现在Github上很多深度学习的开源项目都是用的tensorflow和pytorch框架。所以现在也开始学习pytorch框架,之前一直用的是tensorflow1.x版本,今年正好迎来了新的tensorlfow大.........

2019-12-10 20:36:50 103359 500

原创 TensorRT安装记录(8.2.5)

根据官方对于TensorRT的介绍可知,TensorRT是一个针对已训练好模型的SDK,通过该SDK能够在NVIDIA的设备上进行高性能的推理。那么TensorRT具体会对我们训练好的模型做哪些优化呢

2022-09-20 16:04:06 11538 13

原创 MobileViT模型简介

自从2010年ViT(Vision Transformer)模型的横空出世,人们发现了Transformer架构在视觉领域的巨大潜力。近些年,越来越多的科研人员投入Transformer的怀抱,视觉领域的各项任务也不断被Transformer架构模型刷新。Transformer虽然强大,但在现在看来落地仍存在很多难点。比如模型参数太大(比如ViT Large Patch16模型光权重就有1个多G),而且算力要求太高,这基本就给移动端部署Transformer模型判了死刑。

2022-09-05 23:43:49 23218 31

原创 U2Net网络简介

U2Net是阿尔伯塔大学(University of Alberta)在2020年发表在CVPR上的一篇文章。该文章中提出的U2Net是针对Salient Object Detetion(SOD)即显著性目标检测任务提出的。而显著性目标检测任务与语义分割任务非常相似,只不过显著性目标检测任务是二分类任务,它的任务是将图片中最吸引人的目标或区域分割出来,故只有前景和背景两类。......

2022-08-09 21:03:20 15548 19

原创 RepVGG网络简介

VGG网络是2014年由牛津大学著名研究组VGG (Visual Geometry Group) 提出的。在2014到2016年(ResNet提出之前),VGG网络可以说是当时最火并被广泛应用的Backbone。后面由于各种新的网络提出,论精度VGG比不上ResNet,论速度和参数数量VGG比不过MobileNet等轻量级网络,慢慢的VGG开始淡出人们的视线。...............

2022-07-10 15:31:08 23617 28

原创 YOLOX网络结构详解

在之前文章中我们已经聊过YOLO v5了,今天我们再来聊聊YOLOX。YOLOX是旷视科技在2021年发表的一篇文章,当时主要对标的网络就是很火的YOLO v5,如果对YOLO v5不了解的可以看下我之前的文章。那么在YOLOX中引入了当年的哪些黑科技呢,简单总结主要有三点,decoupled head、anchor-free以及advanced label assigning strategy(SimOTA)。............

2022-06-07 18:12:17 32833 34

原创 FCOS网络解析

在之前讲的一些目标检测网络中,比如Faster RCNN系列、SSD、YOLOv2~v5(注意YOLOv1不包括在内)都是基于Anchor进行预测的。即先在原图上生成一堆密密麻麻的Anchor Boxes,然后网络基于这些Anchor去预测它们的类别、中心点偏移量以及宽高缩放因子得到网络预测输出的目标,最后通过NMS即可得到最终预测目标。那基于Anchor的网络存在哪些问题呢...

2022-05-21 11:05:32 15881 20

原创 HRNet网络简介

这篇文章是由中国科学技术大学和亚洲微软研究院在2019年共同发表的。这篇文章中的HRNet(High-Resolution Net)是针对2D人体姿态估计(Human Pose Estimation或Keypoint Detection)任务提出的,并且该网络主要是针对单一个体的姿态评估(即输入网络的图像中应该只有一个人体目标)。人体姿态估计在现今的应用场景也比较多,比如说人体行为动作识别,人机交互(比如人作出某种动作可以触发系统执行某些任务),动画制作(比如根据人体的关键点信息生成对应卡通人物的动作)等等

2022-05-12 17:27:55 55555 54

原创 Mask R-CNN网络详解

Mask R-CNN是2017年发表的文章,一作是何恺明大神,没错就是那个男人,除此之外还有Faster R-CNN系列的大神`Ross Girshick`,可以说是强强联合。该论文也获得了ICCV 2017的最佳论文奖(`Marr Prize`)。并且该网络提出后,又霸榜了MS COCO的各项任务,包括目标检测、实例分割以及人体关键点检测任务。在看完这边文章后觉得Mask R-CNN的结构很简洁而且很灵活效果又很好(仅仅是在Faster R-CNN的基础上根据需求加入一些新的分支)。

2022-04-05 17:10:04 35746 58

原创 YOLOv5网络详解

在前面我们已经介绍过了YOLOv1~v4的网络的结构,今天接着上次的YOLOv4再来聊聊YOLOv5,如果还不了解YOLOv4的可以参考之前的博文。YOLOv5项目的作者是Glenn Jocher并不是原Darknet项目的作者Joseph Redmon。并且这个项目至今都没有发表过正式的论文。之前翻阅该项目的issue时,发现有很多人问过这个问题,有兴趣的可以翻翻这个issue #1333。作者当时也有说准备在2021年的12月1号之前发表,并承诺如果到时候没有发表就吃掉自己的帽子。...

2022-03-20 14:53:57 196419 149

原创 YOLOv4网络详解

YOLOv4是2020年Alexey Bochkovskiy等人发表在CVPR上的一篇文章,并不是Darknet的原始作者Joseph Redmon发表的,但这个工作已经被Joseph Redmon大佬认可了。之前我们有聊过YOLOv1~YOLOv3以及Ultralytics版的YOLOv3 SPP网络结构,如果不了解的可以参考之前的视频。

2022-03-03 18:06:12 45120 37

原创 Grad-CAM简介

对于常用的深度学习网络(例如CNN),可解释性并不强(至少现在是这么认为的),它为什么会这么预测,它关注的点在哪里,我们并不知道。很多科研人员想方设法地去探究其内在的联系,也有很多相关的论文。今天本文简单聊一聊Grad-CAM,这并不是一篇新的文章,但很有参考意义。通过Grad-CAM我们能够绘制出如下的热力图(对应给定类别,网络到底关注哪些区域)。

2022-02-24 20:40:31 70324 84

原创 更换python源以及anaconda源

将python的pypi源以及anaconda的源换成清华镜像源。

2022-02-15 17:15:25 4720

原创 ConvNeXt网络详解

今年(2022)一月份,Facebook AI Research和UC Berkeley一起发表了一篇文章A ConvNet for the 2020s,在文章中提出了ConvNeXt纯卷积神经网络,它对标的是2021年非常火的Swin Transformer,通过一系列实验比对,在相同的FLOPs下,ConvNeXt相比Swin Transformer拥有更快的推理速度以及更高的准确率,在ImageNet 22K上ConvNeXt-XL达到了87.8%的准确率

2022-01-20 11:35:59 60397 38

原创 DeepLabV3网络简析

接着上篇DeepLab V2,本博文简单介绍下DeepLab V3(建议先去看下之前讲的DeepLab V1和DeepLab V2)。这是一篇2017年发表在CVPR上的文章。个人简单阅读完论文后感觉相比DeepLab V2有三点变化:1)引入了Multi-grid,2)改进了ASPP结构,3)把CRFs后处理给移除掉了。再吐槽一下,这篇论文看着感觉乱糟糟的。本篇博文就不按照论文的顺序去写了,直接按照我个人的想法去写。

2021-12-09 11:12:06 25146 36

原创 DeepLabV2网络简析

这是一篇2016年发布在CVPR上的文章。接着上一篇DeepLab V1网络简介,本文对DeepLab V2网络进行简单介绍。个人感觉相对DeepLab V1,DeepLab V2就是换了个backbone(VGG -> ResNet,简单换个backbone就能涨大概3个点)然后引入了一个新的模块ASPP(Atros Spatial Pyramid Pooling),其他的没太大区别。

2021-12-07 11:17:56 10751 6

原创 DeepLabV1网络简析

原论文名称:Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs。这篇文章最早发表于2014年,是Google和UCLA等共同的杰作,也是一篇很经典的论文,DeepLab系列的第一篇论文。因为已经过了很久了,所以本博文只做部分简单的记录。

2021-12-04 19:11:22 16180 6

原创 Swin-Transformer网络结构详解

文章目录0 前言1 网络整体框架2 Patch Merging详解3 W-MSA详解Ω(MSA)\Omega (MSA)Ω(MSA)模块计算量Ω(W−MSA)\Omega (W-MSA)Ω(W−MSA)模块计算量4 SW-MSA详解5 Relative Position Bias详解6 模型详细配置参数0 前言Swin Transformer是2021年微软研究院发表在ICCV上的一篇文章,并且已经获得ICCV 2021 best paper的荣誉称号。Swin Transformer网络是Tran

2021-11-03 21:04:05 170171 143

原创 Pytorch1.10安装记录(CUDA11.3)

Pytorch刚更新到1.10,今天就简单尝个鲜,之前在使用1.9中有很多的UserWarning,在新版本中都已经修复了(强迫者的福音),推荐使用。关于Pytorch1.10更新的内容,请登录Pytorch官网查看。PyTorch官网:https://pytorch.org/文章目录查询NVIDIA GPU算力(可跳过)创建虚拟环境在线安装(CPU/GPU)安装CPU版本安装GPU版本检查GPU驱动版本更新GPU驱动安装Pytorch离线安装(CPU/GPU)安装CPU版本安装GPU版本查询NVI

2021-10-25 15:24:09 51519 25

原创 转置卷积(Transposed Convolution)

import torchimport torch.nn as nndef transposed_conv_official(): feature_map = torch.as_tensor([[1, 0], [2, 1]], dtype=torch.float32).reshape([1, 1, 2, 2]) print(feature_map) trans_conv = nn.ConvTranspose2

2021-10-13 15:27:30 33158 32

原创 Labelme分割标注软件使用

Labelme是一款经典的标注工具,支持目标检测、语义分割、实例分割等任务。今天针对分割任务的数据标注进行简单的介绍。开源项目地址:https://github.com/wkentaro/labelme

2021-09-07 17:16:54 31205 74

原创 EISeg分割标注软件使用

官方原话:EISeg(Efficient Interactive Segmentation)是基于飞桨开发的一个高效智能的交互式分割标注软件。涵盖了高精度和轻量级等不同方向的高质量交互式分割模型,方便开发者快速实现语义及实例标签的标注,降低标注成本。 另外,将EISeg获取到的标注应用到PaddleSeg提供的其他分割模型进行训练,便可得到定制化场景的高精度模型,打通分割任务从数据标注到模型训练及预测的全流程。飞桨(PaddlePaddle)是百度开源的深度学习框架,社区也比较活跃,关键是中文方便交流..

2021-09-07 17:06:29 28779 64

原创 pytorch转paddle推理模型

最近有个需求,是将训练好的pytorch模型转成paddlepaddle的inference_model,然后直接使用paddlepaddle载入使用。转换的工具主要使用paddle官方提供的X2paddle,对应项目链接:https://github.com/PaddlePaddle/X2Paddle官方文档中有对应pytorch模型转paddlepaddle模型的教程,但我只需要inference_model,所以我采用的方法是先将训练好的pytorch模型转成ONNX格式,然后在用X2Paddle

2021-08-25 15:15:36 4834 10

原创 Ubuntu18.04安装微信记录

由于现在微信并不支持Linux系统,所以要在Linux环境下使用微信需要借助Wine工具。安装WineHD关于安装Wine可以参考这篇文章,不要安装apt源中的wine,太老了,直接通过wineHD源安装:导入WineHQ 存储库的 GPG 密钥wget -qO- https://dl.winehq.org/wine-builds/winehq.key | sudo apt-key add -添加WineHD源sudo apt install software-properties

2021-08-23 18:19:24 3199 13

原创 使用k-means聚类anchors

在之前讲yolo理论基础知识时有提到过,从yolov2开始使用的anchors都是通过聚类得到的。如果想了解更多yolo相关的知识可以看看我在bilibili上录得视频:https://www.bilibili.com/video/BV1yi4y1g7ro今天补下之前没有细讲的聚类anchors相关知识,所使用的代码参考的是yolov3 spp以及yolov5中生成anchors的方法。文章目录K-means理论简介K-mean在anchors中的应用yolov5中聚类anchors代码讲解聚类anch

2021-08-14 17:32:29 20035 67

原创 github不再通过验证密码方式push代码

今天是2021年8月13日(情人节),苦涩。在使用账号密码push代码时,提示了如下错误:remote: Support for password authentication was removed on August 13, 2021. Please use a personal access token instead.也就是说,从2021年8月13日开始不在支持通过输入账号密码的形式push代码,需要使用personal access token个人访问令牌。其实github很早之前就提示过的

2021-08-14 17:10:55 3718 2

原创 HSV模型简介以及利用HSV模型随机增强图像

文章目录图像HSV模型简介RGB模型转HSV模型opencv关于HSV模型实验随机增强图像HSV图像HSV模型简介HSV(Hue, Saturation, Value)是根据颜色的直观特性由A. R. Smith在1978年创建的一种颜色空间, 也称六角锥体模型(Hexcone Model)(参考百度)。在HSV模型中,颜色是由色度(Hue),饱和度(Saturation),明度(Value)共同组成。 如图所示,HSV模型中色度(H

2021-08-07 15:15:12 17534 6

原创 数据增广:旋转,缩放,平移以及错切

在深度学习(图像领域)中,为了提升训练样本数量数据增广是非常常见的手段。比如:随机水平翻转随机色调(H)、饱和度(S)、明度(V)调整随机旋转,缩放,平移以及错切还有近几年常用的mixup,mosaic等等。今天简单讲讲随机旋转,缩放,平移以及错切方法,因为在之前yolov3 spp项目的数据读取部分有涉及到相关知识。本文会结合opencv来进行演示。文章目录仿射变换旋转、平移与缩放旋转与平移错切仿射变换在opencv中可以通过仿射变换来实现旋转,缩放,平移以及错切等一系列操作。仿射

2021-08-06 14:27:19 9296 7

原创 Wider Face数据集详解

根据官网的介绍,Wider Face数据集是最早是在2015年公开的v1.0版本。该数据集的图片来源是WIDER数据集,从中挑选出了32,203图片并进行了人脸标注,总共标注了393,703个人脸数据。并且对于每张人脸都附带有更加详细的信息,包扩blur(模糊程度), expression(表情), illumination(光照), occlusion(遮挡), pose(姿态),后面会进一步介绍。...

2021-07-22 16:39:07 14991 15

原创 PPOCRLabel使用中遇到的问题以及离线使用

PPOCRLabel是PaddleOCR中提供的一个半自动标注工具,使用起来非常方便,能够大幅提高标注效率。本篇博文简单记录下在使用PaddleLabel中遇见的问题(本篇博文只记录PPOCRLabel的安装使用,关于PaddleOCR的使用请自行阅读文档)。文章目录1 安装PPOCRLabel安装paddlepaddle安装pyqt5安装trash-cli(仅Linux环境需要)安装python-Levenshtein报错:Microsoft Visual C++ 14.0 or greater is

2021-07-10 19:31:03 4037 7

原创 Vision Transformer详解

论文名称: An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale论文下载链接:https://arxiv.org/abs/2010.11929原论文对应源码:https://github.com/google-research/vision_transformerPytorch实现代码: pytorch_classification/vision_transformer文章目录前言模型详解Vision

2021-06-26 14:50:39 189367 136

原创 Group Normalization详解

论文名称:Group Normalization论文地址:https://arxiv.org/abs/1803.08494在之前的文章中有介绍过BN(Batch Normalization),链接,以及LN(Layer Normalization),链接。今天来简单聊聊GN(Group Normalization)。在视觉领域,其实最常用的还是BN,但BN也有缺点,通常需要比较大的Batch Size。如下图所示,蓝色的线代表BN,当batch size小于16后error明显升高(但大于16后的效果确

2021-06-18 14:50:14 8070 11

原创 Pytorch1.9 CPU/GPU(CUDA11.1)安装

Pytorch刚更新到1.9,今天就简单的尝试了一下,发现之前1.8中的很多bug都已经修复了(之前torch1.8+CUDA11问题较多),推荐使用。PyTorch官网:https://pytorch.org/文章目录创建虚拟环境在线安装(CPU/GPU)安装CPU版本安装GPU版本离线安装(CPU/GPU)安装CPU版本安装GPU版本创建虚拟环境在安装之间,强烈建议使用conda创建一个新的虚拟环境,这样就不会对你之前的环境照成影响。这里以创建torch1.9为例:这里创建一个名为torc

2021-06-17 16:18:12 34454 24

原创 详解Transformer中Self-Attention以及Multi-Head Attention

原文名称:Attention Is All You Need原文链接:https://arxiv.org/abs/1706.03762最近Transformer在CV领域很火,Transformer是2017年Google在Computation and Language上发表的,当时主要是针对自然语言处理领域提出的(之前的RNN模型记忆长度有限且无法并行化,只有计算完tit_iti​时刻后的数据才能计算ti+1t_{i+1}ti+1​时刻的数据,但Transformer可以)。在这篇文章中作者提出了S

2021-06-11 17:11:33 92444 78

原创 Layer Normalization解析

原论文名称:Layer Normalization原论文地址: https://arxiv.org/abs/1607.06450之前有讲过Batch Normalization的原理,链接,今天来简单讲讲Layer Normalization。Layer Normalization是针对自然语言处理领域提出的,例如像RNN循环神经网络。为什么不使用直接BN呢,因为在RNN这类时序网络中,时序的长度并不是一个定值(网络深度不一定相同),比如每句话的长短都不一定相同,所有很难去使用BN,所以作者提出了Lay

2021-06-07 14:45:45 30474 18

原创 使用fvcore计算Pytorch中模型的参数数量以及FLOPs

fvcore是Facebook开源的一个轻量级的核心库,它提供了各种计算机视觉框架中常见且基本的功能。其中就包括了统计模型的参数以及FLOPs等。fvcore is a light-weight core library that provides the most common and essential functionality shared in various computer vision frameworks项目开源地址:https://github.com/facebookresear

2021-06-02 16:16:49 8807 20

原创 EfficientNetV2网络详解

文章目录EfficientNetv1中存在的问题EfficientNetv2中做出的贡献NAS 搜索EfficientNetv2网络框架EfficientNetv1中存在的问题作者系统性的研究了EfficientNet的训练过程,并总结出了三个问题:训练图像的尺寸很大时,训练速度非常慢。 这确实是个槽点,在之前使用EfficientNet时发现当使用到B3(img_size=300x300)- B7(img_size=600)时基本训练不动,而且非常吃显存。通过下表可以看到,在Tesla V100上

2021-05-18 13:14:04 49627 70

原创 Drawio使用简介(慢慢更新中)

drawio是一款强大、免费的绘图工具(基本可以替代收费的visio等),使用起来非常方便。支持网页版使用(网页版可以自己部署一套)以及客户端使用(支持windows,MacOS以及Linux)。该项目开源在github上的源码:https://github.com/jgraph/drawio-desktop目录网页端使用桌面端下载语言设置开始绘图添加元素元素对齐元素等距分布网页端使用懒得安装的直接使用下面这个链接直接开始绘图:https://www.draw.io桌面端下载在gith

2021-04-23 16:21:55 129939 56

原创 PASCAL VOC2012数据集介绍

之前有在Bilibili上简单介绍过这个数据集,但一直没有写博文,今天抽空总结下,如果不想看文章的,可以看下我在Bilibili上的讲解视频。Pascal VOC2012数据集详解视频: https://b23.tv/F1kSCKPascal VOC2012官网地址:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/官方发表关于介绍数据集的文章 《The PASCALVisual Object Classes Challenge: A Retrospecti

2021-04-17 11:24:36 42732 25

原创 Linux安装Pytorch1.8GPU(CUDA11.1)

先说下自己之前的环境(都是Linux系统,差别不大):Centos7.6NVIDIA Driver Version 440.33.01(等会需要更新驱动)CUDA10.1Pytorch1.6/1.7提示,如果想要保留之前的PyTorch1.6或1.7的环境,请不要卸载CUDA环境,可以通过Anaconda管理不同的环境,互不影响。但是需要注意你的NVIDIA驱动版本是否匹配。在这里能够看到官方给的对应CUDA版本所需使用驱动版本。通过上表可以发现,如果要使用CUDA11.1,那么需要将显卡

2021-03-16 21:08:46 15488 16

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除