自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 深度学习训练模型出现:RuntimeError: CUDA out of memory. 如何解决?

cuda:out of memory

2025-01-09 12:00:26 798

原创 Swin-Transformer

论文名称:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows。Swin Transformer是2021年微软研究院发表在ICCV上的一篇文章,并且已经获得ICCV 2021 best paper的荣誉称号。原论文对应源码:https://github.com/microsoft/Swin-Transformer。论文下载链接: https://arxiv.org/abs/2103.14030。

2025-01-07 23:30:51 348

原创 三维卷积( 3D CNN)

​ 3D CNN主要运用在视频分类、动作识别等领域,它是在2D CNN的基础上改变而来。由于2D CNN不能很好的捕获时序上的信息,因此我们采用3D CNN,这样就能将视频中时序信息进行很好的利用。首先我们介绍一下2D CNN与3D CNN的区别。如下图所示,a)和b)分别为2D卷积用于单通道图像和多通道图像的情况(此处多通道图像可以指同一张图片的3个颜色通道,也指多张堆叠在一起的图片,即一小段视频),对于一个滤波器,输出为一张二维的特征图,多通道的信息被完全压缩了。而c)中的3D卷积的。

2025-01-07 23:23:15 5379 1

原创 Vision Transformer (ViT)

ViT架构、基本理论知识

2025-01-06 23:24:41 900

原创 Transformer

无处不在的注意力机制李笑来说“你的时间比金钱重要,而你的注意力比时间更重要。”,他还说“注意力是当今时代最稀缺的资源”,有人说,“你的时间在哪里,成就就在哪里”,但更准确地来说,“注意力在哪里,成就就在哪里”现今我们通过网络能接触到大量信息资源,但接踵而来的信息却成了我们的负担,因为网上的信息资源质量参差不齐,不准确的信息不仅不会给我们带来好处,反而会让我们更加迷惑,只有将注意力放在那些重要准确的信息上,才能对我们自身有所提升。那什么是注意力呢?

2025-01-06 23:17:39 1237

原创 使用pycharm连接远程服务器

主机为服务器的IP地址,输入用户名和密码配置项目位置、选择编译器。

2024-12-14 23:28:12 800

原创 在远程服务器(Linux系统)上安装Anaconda并创建环境

去官网查找版本:https://repo.anaconda.com/archive/如何选择版本?输入命令下载:wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/安装:bash清华源:一直按erter,直到出现:yes|no,输入yes。

2024-12-14 23:19:57 578

原创 多模态理论——什么是多模态?多模态的关键技术?

模态指的是数据或者信息的表现形式,如文本、图像、音频、视频等多模态指的是数据或者信息的多种表现形式,一个信息,它可以存在多种表现形式。为什么会有多模态呢?因为人类有多种感官来处理信息:比如听觉、嗅觉、视觉、触觉、味觉等,它们都可以获取并且处理不同形式的信息。为了让计算机具备分析互联网数据的能力、模拟人类的认知方式,同时处理多个模态数据的多模态信息处理技术应运而生。

2024-10-11 16:35:05 13015

原创 多模态理论基础——什么是多模态?

模态指的是数据或者信息的表现形式,如文本、图像、音频、视频等多模态指的是数据或者信息的多种表现形式,一个信息,它可以存在多种表现形式。为什么会有多模态呢?因为人类有多种感官来处理信息:比如听觉、嗅觉、视觉、触觉、味觉等,它们都可以获取并且处理不同形式的信息。为了让计算机具备分析互联网数据的能力、模拟人类的认知方式,同时处理多个模态数据的多模态信息处理技术应运而生。

2024-10-06 01:28:30 1365

原创 【多模态项目实战】-模态表示:基于对应表示的跨模态检索(图文互搜)

任务说明:基于一个模态的数据,去另一个模态的候选集中进行检索,得到对应的数据跨模态检索的关键就是建立不同模态数据之间的关联,更直接地,模型需要能够输出多个模态数据的匹配分数。对应表示方法:学习图文多模态对应表示,然后直接利用图像和文本的对应表示的距离计算匹配分数;共享表示方法:学习图文多模态共享表示,然后在共享表示层上增加一个或多个网络层直接输出图像和文本的匹配分数。一般而言,和对应表示方法相比,**共享表示方法因为充分融合了图文信息,可以获得更好的性能。

2024-10-06 01:06:44 2294

原创 YOLOv7项目运行

论文:[代码里面也含有论文。

2024-09-25 23:10:43 943

原创 YOLOv5的训练技巧汇总

本是想寻找针对yolov5的训练技巧来提升模型的效果,但发现yolov5本身就包含了很多训练技巧,反正也要学习yolov5的原理,就一块儿学了,以此篇记录下!运动员在比赛之前都会进行热身活动,不然一下子用力过猛容易发生拉伤、扭伤。那对于我们的模型呢?众所周知学习率是一个非常重要的超参数,直接影响着网络训练的速度核收敛情况。通常情况下,网络开始训练之前,我们会随机初始化权重,但设置学习率过大会导致模型振荡严重,类似于运动员比赛之前不热身,“用力过猛”,而学习率过小,又会导致网络收敛太慢。那该怎么做呢?

2024-09-20 14:33:52 2878

原创 YOLOv5-6.x源码分析----数据集创建之dataloaders.py

本篇文章用于梳理YOLOv5的数据集部分代码,帮助自己搞懂YOLOv5内部运作,若对后面的各位小伙伴有用,我也非常开心😀前段时间将yolov5的模型跑通了,后续想提升模型的预测效果,看到了人家的训练tricks,其中有位是从数据增强方面开始的,我也打算沿着人家的足迹走一遍,但是直接上来就写代码进行数据增强有点困难,首先是不知道在哪里写,在找的过程中发现yolov5本身有些数据增强的方式,但是它到底做了哪些数据增强?这是一下子看不出来的,它又对数据集做了哪些处理?

2024-09-06 16:42:32 959

原创 YOLOv5的数据增强详解

本来是为了对使用了yolov5模型的项目数据集做数据增强,但在学习的过程中发现yolov5本身具有特别多的数据增强方法,现在就来学习一下!由于数据增强方式太多,刚开始只要记住哪种数据增强方式对应哪种效果就好。

2024-09-06 15:58:03 3637

原创 Pytorch图像分类:06使用PyTorch搭建MobileNet模型

【简介】:基于flower_data使用PyTorch搭建ResNet模型进行图片分类【参考】:7.1 MobileNet网络详解_哔哩哔哩_bilibili【代码完整版】:06MobileNet(github.com)注:本人还在学习初期,此文是为了梳理自己所学整理的,有些说法是自己的理解,不一定对,如有差错,请批评指正!MobileNet 模型是 google 在 2017 年针对手机或者嵌入式设备提出轻量级模型,它的提出是为了解决传统神经网络内存需求量大、运算量大的问题。网络中的亮点为:深度可分

2024-08-26 12:15:53 1086

原创 Pytorch图像分类:05使用PyTorch搭建ResNet模型

【简介】:基于flower_data使用PyTorch搭建ResNet模型进行图片分类【参考】:6.1 ResNet网络结构,BN以及迁移学习详解_哔哩哔哩_bilibili        ResNet网络结构详解与模型的搭建_resnet模型结构-CSDN博客【代码完整版】:05ResNet(github.com)注:本人还在学习初期,此文是为了梳理自己所学整理的,有些说法是自己的理解,不一定对,如有差错,请批评指正!ResNet在2015年由微软实验室提出,斩获当年ImageNet竞赛中分类任务、

2024-08-12 10:07:22 852 1

原创 Pytorch图像分类:04使用PyTorch搭建GoogLeNet模型

【简介】:基于flower_data使用PyTorch搭建GoogleLeNet模型进行图片分类【参考】:4.1 VGG网络详解及感受野的计算_哔哩哔哩_bilibili【代码完整版】:04 GoogLeNet(github.com)注:本人还在学习初期,此文是为了梳理自己所学整理的,有些说法是自己的理解,不一定对,如有差错,请批评指正!GoogLeNet在2014年由Google团队提出,斩获当年ImageNet竞赛中Classification Task (分类任务)第一名。网络中的亮点包括:Ale

2024-08-07 10:42:12 727 1

原创 Pytorch图像分类:03使用PyTorch搭建VGG模型

使用Pytotrch搭建VGG模型

2024-08-02 12:50:47 1031

原创 Pytorch图像分类:02使用PyTorch搭建AlexNet模型

这里将训练集和测试集的预处理函数写成了一个。"train":transforms.Compose([transforms.RandomResizedCrop(224),#随机裁剪transforms.RandomHorizontalFlip(),#随机翻转]),])在开始之前,获取了设备,查看是使用了cpu还是gpu,如果是gpu,则会打印"cuda"。

2024-07-29 19:56:55 676

原创 Pytorch图像分类:01使用PyTorch搭建LeNet模型

在数据进入模型之前需要进行一些预处理,例如数据中心化(仅减均值),数据标准化(减均值,再除以标准差),随机裁剪,旋转一定角度,镜像等一系列操作, 在 PyTorch 中,这些数据增强方法被放在了文件中。可以把transforms看作是一个数据预处理工具包,它里面用于处理的每个函数可以看作是单独的一个工具,我们可以用transforms.Compose将多个工具组合起来形成自己的工具包。])

2024-07-27 13:54:42 1033

原创 深度学习 | 经典神经网络模型(从LeNet、AlexNet、VGG到GoogleNet、ResNet、DenseNet)

经典神经网络模型

2024-07-25 16:46:13 474

原创 深度学习实例 | 第2例:人脸表情识别 - PyTorch实现

100>0.1f>8f如何理解for i,(images,labels) in enumerate(dataloader)?for…in enumerate() 会调用DataLoader类的__iter__方法,将一个batch的数据以数组的形式返回,若总数居为6,batch=2,则要迭代3次,i=0,1,2为什么是enumerate(dataloader,0)而不是enumerate(dataloader)?==>enumerate(dataloader,start=0),默认从0开始。

2024-07-25 15:18:43 837

原创 深度学习实例 | 第1例:猫狗识别 - PyTorch实现

手动搭建LeNet实现猫狗识别

2024-07-15 00:19:17 1962

原创 【代码随想录】-02链表

一般是使用List->next来找结点,即找要被删除的结点的上一结点,这样才可以将链表连接起来。,在C++中,结构体和类的定义可以直接在函数内部使用,不需要提前声明。在Solution中,为什么不是用struct ListNode。删除链表中等于给定值 val 的所有节点。找到结点–>更改上一结点的指向–>删除结点。而是ListNode。

2024-06-01 23:44:54 236

原创 【代码随想录】-01数组

if nums[middle]target:说明target在middle左边,则right=middle-1。一般middle = (left + right) / 2,但是left + right可能会造成数据溢出,故换种表达方式:middle=left+(right-left)/2;中间值:middle=left+(right-left)/2;结束位置:right=size-1;

2024-06-01 23:42:34 365

原创 【吴恩达深度学习】一、神经网络与深度学习 01深度学习与神经网络

从房价预测开始:假设你有一个数据集,它包含了六栋房子的信息。所以,你知道房屋的面积是多少平方英尺或者平方米,并且知道房屋价格。这时,你想要拟合一个根据房屋面积预测房价的函数。如果你对线性回归很熟悉,你可能会说:“好吧,让我们用这些数据拟合一条直线。”于是你可能会得到这样一条直线。但有点奇怪的是,我们知道价格永远不会是负数的。因此,为了替代一条可能会让价格为负的直线,我们把直线弯曲一点,让它最终在零结束。这条粗的蓝线最终就是你的函数,用于根据房屋面积预测价格。有部分是零,而直线的部分拟合的很好。

2024-05-25 13:41:11 386

原创 labelImg的安装和使用以及注意事项

labelImg的安装和使用&labelImg标注文件导入了但一直不显示标注框 | IbelImg读取不到标签

2024-02-13 23:55:57 528 1

原创 机器学习算法--03聚类算法

本文是对聚类算法的概念、原理的学习,并附有代码,特别学习了聚类算法中的两种常见算法:KMeans和DBSCAN

2023-01-26 00:09:40 553

原创 01机器学习基础

《深度学习导论与应用实践》第3章知识点整理,主要是机器学习的一些基本概念,都是基础内容

2022-10-21 23:53:53 402

原创 人工智能基础---上机2:产生式系统

产生式系统

2022-10-17 21:04:07 2905 2

原创 人工智能基础---上机1:猴子摘香蕉

人工智能基础上机---猴子摘香蕉

2022-10-17 20:10:06 2474

原创 数据结构---克鲁斯卡尔(Kruskal)算法

为了帮助自己复习,故作此篇

2022-07-03 17:36:48 830

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除