自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 Mask R-CNN论文原理讲解

Mask R-CNN是何凯明大神的新作。Mask R-CNN是一种在有效检测目标的同时输出高质量的实例分割mask。是对faster r-cnn的扩展,与bbox检测并行的增加一个预测分割mask的分支。Mask R-CNN 可以应用到人体姿势识别。并且在实例分割、目标检测、人体关键点检测三个任务都取得了现在最好的效果,下图是Mask R-CNN的检测效果图:语义分割通过对输入图像中每个像素的标签进行预测,给出了较好的推理,例如是前景还是背景。每个像素都根据其所在的对象类进行标记。

2024-08-29 20:08:44 568

原创 CAM Back Again论文详解

"CAM Back Again: Large Kernel CNNs from a Weakly Supervised Object Localization Perspective" 是一篇研究论文,探讨了在弱监督目标定位(WSOL)任务中,如何利用大卷积核卷积神经网络(CNNs)来提升类激活映射(CAM)的表现。该研究提出了一种新颖的方法,通过结合大卷积核与CAM来增强模型的定位能力。

2024-08-29 16:48:45 905

原创 Vision Transformer理论+PyTorch代码全解析(附图解)

前几年CV领域的Vision Transformer将在NLP领域的Transormer结果借鉴过来,屠杀了各大CV榜单。本文将根据最原始的Vision Transformer论文,和GitHub上star最多的Pytorch代码实现,将整个ViT的代码做一个全面的解析。对原Transformer还不熟悉的读者可以看一下Attention is All You Need原文。

2024-08-28 15:09:51 1090

原创 Transformer网络架构

第一次看Transformer的架构,我是有点看不懂的,在查阅大量资料之后对于Transformer的认识会变得越来越清晰,以下是最近阅读Transformer相关文章的总结Transformer可以比较好进行并行训练(相对于RNN和LSTM)Transformer 架构本身不能利用单词的原有顺序信息,需要在输入中添加位置 Embedding,否则 Transformer 就是一个词袋模型了。Transformer 的重点是 Self-Attention 结构,其中用到的Q, K, V。

2024-08-28 10:45:00 1289

原创 机器学习之------RNN循环神经网络

Jordan网络可以得到比较好的性能,因为Elman网络的隐藏层是没有target的,比较难控制它学到了什么信息,但是Jordan网络的输出y是有target的,可以对放在memory中的是什么东西比较清楚的。用双向RNN的好处,就是网络产生输出的时候,看的范围比较广。如果只有正向的RNN,在产生yt+1yt+1的时候,网络只看过x1x1一直到xt+1xt+1,但是如果是双向的RNN,在产生yt+1yt+1的时候,网络不只是看过x1x1一直到xt+1xt+1,也看了从句尾一直到xt+1xt+1。

2024-08-26 16:38:20 955

原创 在ubuntu系统终端使用Oh My Zsh扩展集遇到的坑

Oh My Zsh 是一款社区驱动的,正如它的主页上说的,Oh My Zsh 是一种生活方式。它基于 zsh 命令行,提供了主题配置,插件机制,已经内置的便捷操作。给我们一种全新的方式使用命令行。

2024-08-23 09:53:52 402

原创 无监督训练模型之------MoCo

MoCo于2019年11月13在 CVPR发表,并获得 CVPR2020最佳论文提名,它是用一种对比学习的方式进行无监督训练的模型。MoCo是第一个在很多主流的机器视觉领域上(比如分类、检测、分割、人体关键点检测等),都超越了有监督预训练模型的无监督模型,从某种程度上证明了无监督学习在机器视觉领域,也能达到很好的效果。MoCo这个词,来自于论文标题的前两个单词动量对比Momentum Contrast。什么是动量。

2024-08-20 15:32:53 1167

原创 目标检测之------EfficientDet(BiFPN)可扩展且高效的目标检测

本文受EfficientNet的启发,提出了一种用于目标检测模型的复合尺度变换方法,不仅可以同时对分辨率、网络深度、网络宽度三个维度进行统一缩放,而且可以对目标检测模型中的骨干网络、特征网络、分类/回归预测网络中的上述三个维度进行统一缩放。 此外,本文还提出了一种新的加权双向特征金字塔网络(bi-directional feature pyramid network,BiFPN),可以简单快速地进行多尺度特征融合。基于上述两点,并入引入更好的backbone即EfficientNet,作者提出了一个新的检测

2024-08-19 08:35:08 839

原创 目标检测之---SSD算法详解

SSD模型在2016年由Wei Liu等人提出,并迅速成为对象检测领域的重要工具。随着深度学习技术的不断发展,SSD在许多应用中被广泛使用,如自动驾驶、视频监控、智能安防等。SSD(Single Shot MultiBox Detector)是一种用于对象检测的深度学习神经网络架构。它主要用于在图像中检测和识别多个对象,同时预测这些对象的类别和位置。SSD在速度和精度之间达到了很好的平衡,使其成为实时应用中非常流行的选择。

2024-08-12 14:50:42 1050

原创 深度学习之目标检测---RetinaNet网络结构详解

无论是前景类还是背景类, p t p_t pt​ 越大,权重 ( 1 − p t ) γ (1-p_t)^{\gamma} (1−pt​)γ 就越小,即简单样本的损失可以通过权重进行抑制;α t \alpha_t αt​ 用于调节正负样本损失之间的比例,前景类别使用 α t \alpha_t αt​ 时,对应的背景类别使用 1 − α t 1-\alpha_t 1−αt​;γ \gamma γ 和 α t \alpha_t αt​ 的最优值是相互影响的,所以在评估准确度时需要把两者组合起来调节。

2024-08-11 09:35:58 923

原创 YOLOV3目标检测原理——详解

本文是自己在b站视频讲解学习,并且查阅理解许多文章后,做的通俗理解与总结,欢迎评论交流。yolov3检测分两步:1、确定检测对象位置2、对检测对象分类(是什么东西)即在识别图片是什么的基础上,还需定位识别对象的位置,并框出。我们首先上一幅图宏观理解下图中的红框是通过在yolov3检测最后得出的(bounding box),又如下图的黄色框也是yolov3处理图片过程如下。

2024-08-10 15:57:41 742

原创 基于ResNet50实现垃圾分类

ResNet50是Residual Networks(残差网络)的一种变体,由Kaiming He等人在2015年提出。ResNet50包含50个深度层,通过引入残差模块,有效地解决了深层网络的退化问题。残差模块通过引入短连接(skip connections)使得网络在训练时更容易优化。下图在下文中称为主图模型的精确率达到了69.7%左右,并且对一些样本少的类别和图像质量较差的预测结果不理想,可能需要对图像的预处理方法进行改进,比如图像增强等等。

2024-07-31 11:07:57 1133

原创 目标检测之---从R-CNN到Fast R-CNN再到Faster R-CNN

Fast R-CNN是作者Ross Girshick继R-CNN后的又一力作。同样使用VGG16作为网络的backbone,与R-CNN相比训练时间快9倍,测试推理时间快213倍,准确率从62%提升至66%(在PascalVOC数据集上)Faster R-CNN是作者Ross Girshick继Fast R-CNN后的又一力作。同样使用VGG16作为网络的backbone,推理速度在GPU上达到了5fps(包括候选区域的生成),准确率也有进一步的提升。

2024-07-25 13:35:02 820

原创 [深度学习]-利用pytorch训练好的VGG16网络实现自定义数据集上的图像分类(含代码及详细注释)

VGG16分类因资源有限只能调用训练好的模型进行图像预测相关代码# 1.读取图片plt.show()plt.show()# 根据输出结果预测标签的后处理类的编写。

2024-07-23 10:06:30 616

原创 Fast R-CNN网络结构、框架原理详解

在Fast R-CNN中,并不适用SS算法提供的所有的候选区域,SS算法会差不多得到2000个候选框,但是训练的过程中其实只需要使用其中的一部分就可以了,Fast R-CNN中好像只挑选了其中的64个。分别对应着我们回归参数 x 的smoothL1的回归损失,回归参数 y 的smoothL1的回归损失,回归参数 w 的smoothL1的回归损失与最后的回归参数 h 的smoothL1的回归损失。而当u不满足条件时,也就是u<1时,也就是u=0时,(u为类别的标签),此时类别标签为背景,公式的值为0.

2024-07-22 12:27:09 1371 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除