- 博客(32)
- 收藏
- 关注
原创 Swin-Transformer
论文名称:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows。Swin Transformer是2021年微软研究院发表在ICCV上的一篇文章,并且已经获得ICCV 2021 best paper的荣誉称号。原论文对应源码:https://github.com/microsoft/Swin-Transformer。论文下载链接: https://arxiv.org/abs/2103.14030。
2025-01-07 23:30:51
348
原创 三维卷积( 3D CNN)
3D CNN主要运用在视频分类、动作识别等领域,它是在2D CNN的基础上改变而来。由于2D CNN不能很好的捕获时序上的信息,因此我们采用3D CNN,这样就能将视频中时序信息进行很好的利用。首先我们介绍一下2D CNN与3D CNN的区别。如下图所示,a)和b)分别为2D卷积用于单通道图像和多通道图像的情况(此处多通道图像可以指同一张图片的3个颜色通道,也指多张堆叠在一起的图片,即一小段视频),对于一个滤波器,输出为一张二维的特征图,多通道的信息被完全压缩了。而c)中的3D卷积的。
2025-01-07 23:23:15
5379
1
原创 Transformer
无处不在的注意力机制李笑来说“你的时间比金钱重要,而你的注意力比时间更重要。”,他还说“注意力是当今时代最稀缺的资源”,有人说,“你的时间在哪里,成就就在哪里”,但更准确地来说,“注意力在哪里,成就就在哪里”现今我们通过网络能接触到大量信息资源,但接踵而来的信息却成了我们的负担,因为网上的信息资源质量参差不齐,不准确的信息不仅不会给我们带来好处,反而会让我们更加迷惑,只有将注意力放在那些重要准确的信息上,才能对我们自身有所提升。那什么是注意力呢?
2025-01-06 23:17:39
1237
原创 在远程服务器(Linux系统)上安装Anaconda并创建环境
去官网查找版本:https://repo.anaconda.com/archive/如何选择版本?输入命令下载:wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/安装:bash清华源:一直按erter,直到出现:yes|no,输入yes。
2024-12-14 23:19:57
578
原创 多模态理论——什么是多模态?多模态的关键技术?
模态指的是数据或者信息的表现形式,如文本、图像、音频、视频等多模态指的是数据或者信息的多种表现形式,一个信息,它可以存在多种表现形式。为什么会有多模态呢?因为人类有多种感官来处理信息:比如听觉、嗅觉、视觉、触觉、味觉等,它们都可以获取并且处理不同形式的信息。为了让计算机具备分析互联网数据的能力、模拟人类的认知方式,同时处理多个模态数据的多模态信息处理技术应运而生。
2024-10-11 16:35:05
13015
原创 多模态理论基础——什么是多模态?
模态指的是数据或者信息的表现形式,如文本、图像、音频、视频等多模态指的是数据或者信息的多种表现形式,一个信息,它可以存在多种表现形式。为什么会有多模态呢?因为人类有多种感官来处理信息:比如听觉、嗅觉、视觉、触觉、味觉等,它们都可以获取并且处理不同形式的信息。为了让计算机具备分析互联网数据的能力、模拟人类的认知方式,同时处理多个模态数据的多模态信息处理技术应运而生。
2024-10-06 01:28:30
1365
原创 【多模态项目实战】-模态表示:基于对应表示的跨模态检索(图文互搜)
任务说明:基于一个模态的数据,去另一个模态的候选集中进行检索,得到对应的数据跨模态检索的关键就是建立不同模态数据之间的关联,更直接地,模型需要能够输出多个模态数据的匹配分数。对应表示方法:学习图文多模态对应表示,然后直接利用图像和文本的对应表示的距离计算匹配分数;共享表示方法:学习图文多模态共享表示,然后在共享表示层上增加一个或多个网络层直接输出图像和文本的匹配分数。一般而言,和对应表示方法相比,**共享表示方法因为充分融合了图文信息,可以获得更好的性能。
2024-10-06 01:06:44
2294
原创 YOLOv5的训练技巧汇总
本是想寻找针对yolov5的训练技巧来提升模型的效果,但发现yolov5本身就包含了很多训练技巧,反正也要学习yolov5的原理,就一块儿学了,以此篇记录下!运动员在比赛之前都会进行热身活动,不然一下子用力过猛容易发生拉伤、扭伤。那对于我们的模型呢?众所周知学习率是一个非常重要的超参数,直接影响着网络训练的速度核收敛情况。通常情况下,网络开始训练之前,我们会随机初始化权重,但设置学习率过大会导致模型振荡严重,类似于运动员比赛之前不热身,“用力过猛”,而学习率过小,又会导致网络收敛太慢。那该怎么做呢?
2024-09-20 14:33:52
2878
原创 YOLOv5-6.x源码分析----数据集创建之dataloaders.py
本篇文章用于梳理YOLOv5的数据集部分代码,帮助自己搞懂YOLOv5内部运作,若对后面的各位小伙伴有用,我也非常开心😀前段时间将yolov5的模型跑通了,后续想提升模型的预测效果,看到了人家的训练tricks,其中有位是从数据增强方面开始的,我也打算沿着人家的足迹走一遍,但是直接上来就写代码进行数据增强有点困难,首先是不知道在哪里写,在找的过程中发现yolov5本身有些数据增强的方式,但是它到底做了哪些数据增强?这是一下子看不出来的,它又对数据集做了哪些处理?
2024-09-06 16:42:32
959
原创 YOLOv5的数据增强详解
本来是为了对使用了yolov5模型的项目数据集做数据增强,但在学习的过程中发现yolov5本身具有特别多的数据增强方法,现在就来学习一下!由于数据增强方式太多,刚开始只要记住哪种数据增强方式对应哪种效果就好。
2024-09-06 15:58:03
3637
原创 Pytorch图像分类:06使用PyTorch搭建MobileNet模型
【简介】:基于flower_data使用PyTorch搭建ResNet模型进行图片分类【参考】:7.1 MobileNet网络详解_哔哩哔哩_bilibili【代码完整版】:06MobileNet(github.com)注:本人还在学习初期,此文是为了梳理自己所学整理的,有些说法是自己的理解,不一定对,如有差错,请批评指正!MobileNet 模型是 google 在 2017 年针对手机或者嵌入式设备提出轻量级模型,它的提出是为了解决传统神经网络内存需求量大、运算量大的问题。网络中的亮点为:深度可分
2024-08-26 12:15:53
1086
原创 Pytorch图像分类:05使用PyTorch搭建ResNet模型
【简介】:基于flower_data使用PyTorch搭建ResNet模型进行图片分类【参考】:6.1 ResNet网络结构,BN以及迁移学习详解_哔哩哔哩_bilibili ResNet网络结构详解与模型的搭建_resnet模型结构-CSDN博客【代码完整版】:05ResNet(github.com)注:本人还在学习初期,此文是为了梳理自己所学整理的,有些说法是自己的理解,不一定对,如有差错,请批评指正!ResNet在2015年由微软实验室提出,斩获当年ImageNet竞赛中分类任务、
2024-08-12 10:07:22
852
1
原创 Pytorch图像分类:04使用PyTorch搭建GoogLeNet模型
【简介】:基于flower_data使用PyTorch搭建GoogleLeNet模型进行图片分类【参考】:4.1 VGG网络详解及感受野的计算_哔哩哔哩_bilibili【代码完整版】:04 GoogLeNet(github.com)注:本人还在学习初期,此文是为了梳理自己所学整理的,有些说法是自己的理解,不一定对,如有差错,请批评指正!GoogLeNet在2014年由Google团队提出,斩获当年ImageNet竞赛中Classification Task (分类任务)第一名。网络中的亮点包括:Ale
2024-08-07 10:42:12
727
1
原创 Pytorch图像分类:02使用PyTorch搭建AlexNet模型
这里将训练集和测试集的预处理函数写成了一个。"train":transforms.Compose([transforms.RandomResizedCrop(224),#随机裁剪transforms.RandomHorizontalFlip(),#随机翻转]),])在开始之前,获取了设备,查看是使用了cpu还是gpu,如果是gpu,则会打印"cuda"。
2024-07-29 19:56:55
676
原创 Pytorch图像分类:01使用PyTorch搭建LeNet模型
在数据进入模型之前需要进行一些预处理,例如数据中心化(仅减均值),数据标准化(减均值,再除以标准差),随机裁剪,旋转一定角度,镜像等一系列操作, 在 PyTorch 中,这些数据增强方法被放在了文件中。可以把transforms看作是一个数据预处理工具包,它里面用于处理的每个函数可以看作是单独的一个工具,我们可以用transforms.Compose将多个工具组合起来形成自己的工具包。])
2024-07-27 13:54:42
1033
原创 深度学习实例 | 第2例:人脸表情识别 - PyTorch实现
100>0.1f>8f如何理解for i,(images,labels) in enumerate(dataloader)?for…in enumerate() 会调用DataLoader类的__iter__方法,将一个batch的数据以数组的形式返回,若总数居为6,batch=2,则要迭代3次,i=0,1,2为什么是enumerate(dataloader,0)而不是enumerate(dataloader)?==>enumerate(dataloader,start=0),默认从0开始。
2024-07-25 15:18:43
837
原创 【代码随想录】-02链表
一般是使用List->next来找结点,即找要被删除的结点的上一结点,这样才可以将链表连接起来。,在C++中,结构体和类的定义可以直接在函数内部使用,不需要提前声明。在Solution中,为什么不是用struct ListNode。删除链表中等于给定值 val 的所有节点。找到结点–>更改上一结点的指向–>删除结点。而是ListNode。
2024-06-01 23:44:54
236
原创 【代码随想录】-01数组
if nums[middle]target:说明target在middle左边,则right=middle-1。一般middle = (left + right) / 2,但是left + right可能会造成数据溢出,故换种表达方式:middle=left+(right-left)/2;中间值:middle=left+(right-left)/2;结束位置:right=size-1;
2024-06-01 23:42:34
365
原创 【吴恩达深度学习】一、神经网络与深度学习 01深度学习与神经网络
从房价预测开始:假设你有一个数据集,它包含了六栋房子的信息。所以,你知道房屋的面积是多少平方英尺或者平方米,并且知道房屋价格。这时,你想要拟合一个根据房屋面积预测房价的函数。如果你对线性回归很熟悉,你可能会说:“好吧,让我们用这些数据拟合一条直线。”于是你可能会得到这样一条直线。但有点奇怪的是,我们知道价格永远不会是负数的。因此,为了替代一条可能会让价格为负的直线,我们把直线弯曲一点,让它最终在零结束。这条粗的蓝线最终就是你的函数,用于根据房屋面积预测价格。有部分是零,而直线的部分拟合的很好。
2024-05-25 13:41:11
386
原创 labelImg的安装和使用以及注意事项
labelImg的安装和使用&labelImg标注文件导入了但一直不显示标注框 | IbelImg读取不到标签
2024-02-13 23:55:57
528
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人