心之所向h-CSDN博客

原创下载Huggingface数据集和项目

新手小白多种方式下载huggingface上面的项目和数据集

2025-10-15 11:36:33 959

I3D是除了双流网络视频领域里的一力作，本文主要的工作有2个方面，一方面就是这个标题名称，inflated，本文提供了一种方法将2D网络膨胀为3D网络，使得视频理解不需要再耗费心神去设计一个专门的网络了，而是可以直接使用图片预训练好的模型甚至是预训练的参数，另一方面是提出了一个Kinetics400数据集（后续还有扩充），大家可以在这个数据集做视频理解的预训练，然后迁移到其他数据集上，也能获得比较好的结果。

2025-06-22 16:43:48 822

原创 MobileViT

论文名称：MobileViT: Light-Weight, General-Purpose, and Mobile-Friendly Vision Transformer论文下载地址：https://arxiv.org/abs/2110.02178官方源码（Pytorch实现）：https://github.com/apple/ml-cvnets。

2025-06-22 16:37:05 1344

原创深度学习训练模型出现：RuntimeError: CUDA out of memory. 如何解决？

cuda:out of memory

2025-01-09 12:00:26 1019

原创 Swin-Transformer

论文名称：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows。Swin Transformer是2021年微软研究院发表在ICCV上的一篇文章，并且已经获得ICCV 2021 best paper的荣誉称号。原论文对应源码：https://github.com/microsoft/Swin-Transformer。论文下载链接： https://arxiv.org/abs/2103.14030。

2025-01-07 23:30:51 597

原创三维卷积（ 3D CNN）

3D CNN主要运用在视频分类、动作识别等领域，它是在2D CNN的基础上改变而来。由于2D CNN不能很好的捕获时序上的信息，因此我们采用3D CNN，这样就能将视频中时序信息进行很好的利用。首先我们介绍一下2D CNN与3D CNN的区别。如下图所示，a)和b)分别为2D卷积用于单通道图像和多通道图像的情况（此处多通道图像可以指同一张图片的3个颜色通道，也指多张堆叠在一起的图片，即一小段视频），对于一个滤波器，输出为一张二维的特征图，多通道的信息被完全压缩了。而c)中的3D卷积的。

2025-01-07 23:23:15 8189 1

原创 Vision Transformer (ViT)

ViT架构、基本理论知识

2025-01-06 23:24:41 1107

原创 Transformer

无处不在的注意力机制李笑来说“你的时间比金钱重要，而你的注意力比时间更重要。”，他还说“注意力是当今时代最稀缺的资源”，有人说，“你的时间在哪里，成就就在哪里”，但更准确地来说，“注意力在哪里，成就就在哪里”现今我们通过网络能接触到大量信息资源，但接踵而来的信息却成了我们的负担，因为网上的信息资源质量参差不齐，不准确的信息不仅不会给我们带来好处，反而会让我们更加迷惑，只有将注意力放在那些重要准确的信息上，才能对我们自身有所提升。那什么是注意力呢？

2025-01-06 23:17:39 1385

原创使用pycharm连接远程服务器

主机为服务器的IP地址，输入用户名和密码配置项目位置、选择编译器。

2024-12-14 23:28:12 939

原创在远程服务器（Linux系统）上安装Anaconda并创建环境

去官网查找版本：https://repo.anaconda.com/archive/如何选择版本？输入命令下载：wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/安装：bash清华源：一直按erter，直到出现：yes|no，输入yes。

2024-12-14 23:19:57 636

原创多模态理论——什么是多模态？多模态的关键技术？

模态指的是数据或者信息的表现形式，如文本、图像、音频、视频等多模态指的是数据或者信息的多种表现形式，一个信息，它可以存在多种表现形式。为什么会有多模态呢？因为人类有多种感官来处理信息：比如听觉、嗅觉、视觉、触觉、味觉等，它们都可以获取并且处理不同形式的信息。为了让计算机具备分析互联网数据的能力、模拟人类的认知方式，同时处理多个模态数据的多模态信息处理技术应运而生。

2024-10-11 16:35:05 16805

原创多模态理论基础——什么是多模态？

模态指的是数据或者信息的表现形式，如文本、图像、音频、视频等多模态指的是数据或者信息的多种表现形式，一个信息，它可以存在多种表现形式。为什么会有多模态呢？因为人类有多种感官来处理信息：比如听觉、嗅觉、视觉、触觉、味觉等，它们都可以获取并且处理不同形式的信息。为了让计算机具备分析互联网数据的能力、模拟人类的认知方式，同时处理多个模态数据的多模态信息处理技术应运而生。

2024-10-06 01:28:30 2146

原创【多模态项目实战】-模态表示：基于对应表示的跨模态检索（图文互搜）

任务说明：基于一个模态的数据，去另一个模态的候选集中进行检索，得到对应的数据跨模态检索的关键就是建立不同模态数据之间的关联，更直接地，模型需要能够输出多个模态数据的匹配分数。对应表示方法：学习图文多模态对应表示，然后直接利用图像和文本的对应表示的距离计算匹配分数；共享表示方法：学习图文多模态共享表示，然后在共享表示层上增加一个或多个网络层直接输出图像和文本的匹配分数。一般而言，和对应表示方法相比，**共享表示方法因为充分融合了图文信息，可以获得更好的性能。

2024-10-06 01:06:44 3096

原创 YOLOv7项目运行

论文：[代码里面也含有论文。

2024-09-25 23:10:43 1016

原创 YOLOv5的训练技巧汇总

本是想寻找针对yolov5的训练技巧来提升模型的效果，但发现yolov5本身就包含了很多训练技巧，反正也要学习yolov5的原理，就一块儿学了，以此篇记录下！运动员在比赛之前都会进行热身活动，不然一下子用力过猛容易发生拉伤、扭伤。那对于我们的模型呢？众所周知学习率是一个非常重要的超参数，直接影响着网络训练的速度核收敛情况。通常情况下，网络开始训练之前，我们会随机初始化权重，但设置学习率过大会导致模型振荡严重，类似于运动员比赛之前不热身，“用力过猛”，而学习率过小，又会导致网络收敛太慢。那该怎么做呢？

2024-09-20 14:33:52 3723

原创 YOLOv5-6.x源码分析----数据集创建之dataloaders.py

本篇文章用于梳理YOLOv5的数据集部分代码，帮助自己搞懂YOLOv5内部运作，若对后面的各位小伙伴有用，我也非常开心😀前段时间将yolov5的模型跑通了，后续想提升模型的预测效果，看到了人家的训练tricks，其中有位是从数据增强方面开始的，我也打算沿着人家的足迹走一遍，但是直接上来就写代码进行数据增强有点困难，首先是不知道在哪里写，在找的过程中发现yolov5本身有些数据增强的方式，但是它到底做了哪些数据增强?这是一下子看不出来的，它又对数据集做了哪些处理？

2024-09-06 16:42:32 1075

原创 YOLOv5的数据增强详解

本来是为了对使用了yolov5模型的项目数据集做数据增强，但在学习的过程中发现yolov5本身具有特别多的数据增强方法，现在就来学习一下!由于数据增强方式太多，刚开始只要记住哪种数据增强方式对应哪种效果就好。

2024-09-06 15:58:03 4746

原创 Pytorch图像分类：06使用PyTorch搭建MobileNet模型

【简介】：基于flower_data使用PyTorch搭建ResNet模型进行图片分类【参考】：7.1 MobileNet网络详解_哔哩哔哩_bilibili【代码完整版】：06MobileNet(github.com)注：本人还在学习初期，此文是为了梳理自己所学整理的，有些说法是自己的理解，不一定对，如有差错，请批评指正！MobileNet 模型是 google 在 2017 年针对手机或者嵌入式设备提出轻量级模型，它的提出是为了解决传统神经网络内存需求量大、运算量大的问题。网络中的亮点为：深度可分

2024-08-26 12:15:53 1242

原创 Pytorch图像分类：05使用PyTorch搭建ResNet模型

【简介】：基于flower_data使用PyTorch搭建ResNet模型进行图片分类【参考】：6.1 ResNet网络结构，BN以及迁移学习详解_哔哩哔哩_bilibili ResNet网络结构详解与模型的搭建_resnet模型结构-CSDN博客【代码完整版】：05ResNet(github.com)注：本人还在学习初期，此文是为了梳理自己所学整理的，有些说法是自己的理解，不一定对，如有差错，请批评指正！ResNet在2015年由微软实验室提出，斩获当年ImageNet竞赛中分类任务、

2024-08-12 10:07:22 955 1

原创 Pytorch图像分类：04使用PyTorch搭建GoogLeNet模型

【简介】：基于flower_data使用PyTorch搭建GoogleLeNet模型进行图片分类【参考】：4.1 VGG网络详解及感受野的计算_哔哩哔哩_bilibili【代码完整版】：04 GoogLeNet(github.com)注：本人还在学习初期，此文是为了梳理自己所学整理的，有些说法是自己的理解，不一定对，如有差错，请批评指正！GoogLeNet在2014年由Google团队提出，斩获当年ImageNet竞赛中Classification Task (分类任务)第一名。网络中的亮点包括:Ale

2024-08-07 10:42:12 794 1

原创 Pytorch图像分类：03使用PyTorch搭建VGG模型

使用Pytotrch搭建VGG模型

2024-08-02 12:50:47 1089

原创 Pytorch图像分类：02使用PyTorch搭建AlexNet模型

这里将训练集和测试集的预处理函数写成了一个。"train":transforms.Compose([transforms.RandomResizedCrop(224),#随机裁剪transforms.RandomHorizontalFlip(),#随机翻转]),])在开始之前，获取了设备，查看是使用了cpu还是gpu，如果是gpu，则会打印"cuda"。

2024-07-29 19:56:55 740

原创 Pytorch图像分类：01使用PyTorch搭建LeNet模型

在数据进入模型之前需要进行一些预处理，例如数据中心化(仅减均值)，数据标准化(减均值，再除以标准差)，随机裁剪，旋转一定角度，镜像等一系列操作，在 PyTorch 中，这些数据增强方法被放在了文件中。可以把transforms看作是一个数据预处理工具包，它里面用于处理的每个函数可以看作是单独的一个工具，我们可以用transforms.Compose将多个工具组合起来形成自己的工具包。])

2024-07-27 13:54:42 1092

原创深度学习 | 经典神经网络模型（从LeNet、AlexNet、VGG到GoogleNet、ResNet、DenseNet）

经典神经网络模型

2024-07-25 16:46:13 620

原创深度学习实例 | 第2例：人脸表情识别 - PyTorch实现

100>0.1f>8f如何理解for i,(images,labels) in enumerate(dataloader)？for…in enumerate() 会调用DataLoader类的__iter__方法，将一个batch的数据以数组的形式返回，若总数居为6，batch=2,则要迭代3次，i=0,1,2为什么是enumerate(dataloader,0)而不是enumerate(dataloader)？==>enumerate(dataloader,start=0),默认从0开始。

2024-07-25 15:18:43 922

原创深度学习实例 | 第1例：猫狗识别 - PyTorch实现

手动搭建LeNet实现猫狗识别

2024-07-15 00:19:17 2412 1

原创【代码随想录】-02链表

的输入如下（你设计的程序。

2024-06-01 23:44:54 273

原创【代码随想录】-01数组

要在二分查找的过程中，保持不变量，就是在while循环中每一次边界的处理都要坚持根据区间的定义来操作，这就是。

2024-06-01 23:42:34 443

原创【吴恩达深度学习】一、神经网络与深度学习 01深度学习与神经网络

从房价预测开始：假设你有一个数据集，它包含了六栋房子的信息。所以，你知道房屋的面积是多少平方英尺或者平方米，并且知道房屋价格。这时，你想要拟合一个根据房屋面积预测房价的函数。如果你对线性回归很熟悉，你可能会说：“好吧，让我们用这些数据拟合一条直线。”于是你可能会得到这样一条直线。但有点奇怪的是，我们知道价格永远不会是负数的。因此，为了替代一条可能会让价格为负的直线，我们把直线弯曲一点，让它最终在零结束。这条粗的蓝线最终就是你的函数，用于根据房屋面积预测价格。有部分是零，而直线的部分拟合的很好。

2024-05-25 13:41:11 423

原创 labelImg的安装和使用以及注意事项

labelImg的安装和使用&labelImg标注文件导入了但一直不显示标注框 | IbelImg读取不到标签

2024-02-13 23:55:57 721 1

原创机器学习算法--03聚类算法

本文是对聚类算法的概念、原理的学习，并附有代码，特别学习了聚类算法中的两种常见算法：KMeans和DBSCAN

2023-01-26 00:09:40 623

原创 01机器学习基础

《深度学习导论与应用实践》第3章知识点整理，主要是机器学习的一些基本概念，都是基础内容

2022-10-21 23:53:53 443

原创人工智能基础---上机2：产生式系统

产生式系统

2022-10-17 21:04:07 2998 2

原创人工智能基础---上机1：猴子摘香蕉

人工智能基础上机---猴子摘香蕉

2022-10-17 20:10:06 2604

原创数据结构---克鲁斯卡尔（Kruskal）算法

为了帮助自己复习，故作此篇

2022-07-03 17:36:48 868

qq_54695558的博客