
计算机视觉科研笔记
文章平均质量分 56
计算机视觉方向,在实验室学习的科研笔记
.YY001.
深度学习 人工智能 计算机视觉
展开
-
解决Torch not compiled with CUDA enabled问题
解决Torch not compiled with CUDA enabled问题原创 2023-03-06 22:11:40 · 614 阅读 · 0 评论 -
运用opencv实现简单的图像操作
使用opencv对图像进行简单的操作原创 2023-01-13 16:49:38 · 218 阅读 · 1 评论 -
在mindspore环境下解压文件
比如:解压MINST.zip文件首先点击files ,然后单击New Launcher点击Terminal输了ls输入unzip ./MNIST.zip这是一个bash命令Bash命令是一种在Unix和Linux操作系统中使用的命令行解释器。Bash(全称Bourne Again SHell)是Bourne Shell的改进版本,也是目前广泛使用的一种Shell。Bash命令用于与计算机系统进行交互,可以执行各种任务,包括文件和目录操作、进程管理、网络通信等。通过原创 2023-06-28 22:13:03 · 369 阅读 · 0 评论 -
transformer详解
个人的阅读笔记,观看李宏毅老师的视频记录。原创 2023-09-08 08:12:19 · 250 阅读 · 1 评论 -
2024最全最新安装虚拟环境教程(pytorch,Anaconda,ssh远程连接)
p /xxx/xxx:安装的文件夹路径(改成要安装anaconda3的文件夹路径,如/home/yjh/anaconda3)官网上没有直接支持cuda 12的pytorch版本,但是翻阅社区了解到,cuda是向下兼容的,cuda 12可以支持。查看nvidia版本(这里的版本为12.0),看右上角CUDA Version,记住它!寻找要下载的版本,输入Run this Command后面的命令即可。(2)确定自己的CUDA Driver 版本,查看方式:命令行输入。指定 Anaconda 的安装路径。原创 2024-01-16 21:29:41 · 2715 阅读 · 1 评论 -
pdb的交互调试一些常见命令
在代码中通过设置断点。程序执行到此处时会停止,进入调试模式。原创 2024-10-17 18:37:08 · 321 阅读 · 0 评论 -
2024报错解决ImportError: cannot import name ‘container_abcs‘ from ‘torch._six‘
因为1.8版本之后container_abcs就已经被移除了。原创 2024-08-14 14:38:45 · 336 阅读 · 0 评论 -
查看GPU使用情况,包括查看用户名称
【代码】查看GPU使用情况,包括查看用户名称。原创 2024-05-14 19:10:57 · 244 阅读 · 2 评论 -
2024最新SSH远程连接服务器升级或下载cuda-toolkit
可能出现以下界面,这个提示信息告诉你,系统中已经存在通过包管理器安装的 NVIDIA 驱动程序。安装新的 CUDA Toolkit 包含的驱动程序可能会与现有驱动程序冲突,因此建议你先卸载现有的驱动程序。重新安装后需要接受协议,输入accept按回车。从官网下载,根据自己的系统情况选择对应的版本。原创 2024-07-09 16:30:01 · 654 阅读 · 0 评论 -
ERROR: Could not build wheels for scikit-image, which is required to install pyproject.toml-base报错解决
要下载scikit-image==0.17.2的时候报错。原创 2024-08-16 20:53:21 · 300 阅读 · 0 评论 -
2024最新分别利用sklearn和Numpy实现c均值对鸢尾花数据集进行聚类(附完整代码和注释)
C均值聚类算法(K-Means Clustering)是一种非常流行的聚类算法,用于将数据点分成多个簇,使得簇内的点尽可能相似,簇间的点尽可能不同。以下是K-Means算法的基本步骤:。2.分配:将每个数据点分配到最近的质心所属的簇中。3.更新:计算,更新质心为这个均值。4. 迭代:重复步骤2和3,直到满足某个终止条件(例如,达到最大迭代次数,或者质心的变化小于某个阈值)。5. 终止:当满足终止条件时,算法结束,最终的簇划分就是聚类结果。原创 2024-10-10 09:06:10 · 572 阅读 · 0 评论 -
LightM-UNet论文摘要
实验结果表明,在移除这两个组件后,模型的参数数量和计算开销几乎没有减少,但模型的性能显著下降(mIoU下降了0.44%和0.69%)。进一步地,作者观察到基于Transformer和基于VSSM的结果都优于基于卷积的结果,这证明了建模长距离依赖的好处。这些数据集在现有的分割研究[12, 24]中被广泛使用,并在本研究中分别用来验证2D和3D版本的LightM-UNet的性能。图3展示了分割结果示例,表明与其他模型相比,LightM-UNet具有更平滑的分割边缘,并且不会对小型目标(如肿瘤)产生错误的识别。原创 2024-04-09 23:55:21 · 899 阅读 · 0 评论 -
下载gpu版本的pytorch
命令下载 PyTorch 的 whl 文件。安装下载的 whl 文件。打开终端或命令提示符。原创 2024-04-10 16:37:06 · 1377 阅读 · 1 评论 -
2024最新分别用sklearn和NumPy设计k-近邻法对鸢尾花数据集进行分类(包含详细注解与可视化结果)
【代码】2024最新分别用sklearn和NumPy设计k-近邻法对鸢尾花数据集进行分类(包含详细注解)原创 2024-10-08 09:18:07 · 486 阅读 · 0 评论 -
服务器通过转到其他硬盘来解决空间不够问题
命令将文件转移到新挂载的硬盘。例如,假设要转移的文件在。这边可以看到有一个名为vdb的200G机械硬盘。显示的结果可以看到最后一行会显示挂载结果。输入命令:查看硬盘信息并确定它们的类型。创建一个目录作为挂载点,例如。机械硬盘通常会显示为。原创 2024-07-30 16:42:31 · 350 阅读 · 0 评论 -
2024详细使用Rufus 安装windows系统
使用rufus-3.21制作启动盘并安装系统教程。原创 2024-07-06 20:37:58 · 679 阅读 · 0 评论 -
下载mamba-ssm报错ERROR: ERROR: Failed to build installable wheels for some pyproject.toml based projects
【代码】下载mamba-ssm报错ERROR: ERROR: Failed to build installable wheels for some pyproject.toml based projects。原创 2024-07-30 17:34:28 · 1071 阅读 · 0 评论 -
2024最新关于如何设置gpu数进行训练
方法时,确保您指定了正确的设备编号。如果只有一个GPU,通常不需要指定设备编号,因为默认是0。如果有多个GPU,需要指定正确的设备编号。意味着CUDA设备函数调用无效,这通常是由于尝试在不支持CUDA的设备上执行CUDA操作,或者指定的CUDA设备编号不正确。例如,如果您有多个GPU,只想使用第一个,可以设置。如果您希望在运行特定的Python脚本时使用这个设置,可以在调用脚本之前执行上述命令。如果CUDA不可用,您可能需要切换到CPU或者检查CUDA安装。:按照错误信息中的建议,设置环境变量。原创 2024-03-29 12:47:04 · 449 阅读 · 1 评论 -
2024最新Python Debugger工具pdb的用法(深度学习项目),了解输入输出的形状大小
(在被调试的代码中添加以下代码然后再正常运行代码)基于以上步骤,你就可以知道每个输出结果的形状大小!出现了(Pdb) 的提示符,说明已经打开pdb。在使用Python的pdb调试器时,如果你。,你可以在调试器中直接打印这个变量。在上面的代码中,如果你想要知道。原创 2024-09-25 16:33:06 · 245 阅读 · 0 评论 -
2024最新的screen相关操作
【代码】2024最新的screen相关操作。原创 2024-02-28 22:19:02 · 200 阅读 · 1 评论 -
U-Kan代码解释
这些参数是为自定义的 `KANLinear` 层提供的,控制着该层的网格大小、样条曲线的行为、噪声比例等特性。每个参数在 `KANLayer` 类的 `__init__` 方法中都有定义和用途。- **含义**:网格大小指特征空间中用于划分数据的网格数量。- **作用**: 在一些模型中,特征空间被分割为多个网格单元,`grid_size` 决定了这些网格的维度或划分的细致程度。较大的 `grid_size` 通常意味着更精细的特征划分。- **含义**:样条曲线的阶数(order)。原创 2024-08-15 23:30:31 · 1439 阅读 · 0 评论 -
关于卷积层中参数对输出特征图大小的影响,公式理解
当不同层输出的特征图需要相加时,它们的大小(即宽度和高度)必须相同。这是因为特征图相加是逐像素进行的,只有当两个特征图的对应像素位置对齐时,才能进行相加操作。通道数也要相同原创 2024-12-08 10:45:37 · 198 阅读 · 0 评论 -
期刊论文集合
原创 2025-04-17 15:07:15 · 208 阅读 · 0 评论 -
2024年Valse会议笔记
突破二维跟三维,是否可以用到各种数据维度?原创 2025-04-17 15:06:27 · 260 阅读 · 0 评论 -
Mamba
想把一些不相关的白色的词删去,但是因为每个token的ABC相同,很难有选择性,如果是transformer可以利用自注意力机制完成计算注意力分数,从而删除不相关的词语。输入是文本,我们要做的事是将文本中的单词copy到任意位置,这是简单的,因为对于同于一个token的ABC参数是一样的,因为我们可以对每个token采用相同参数处理。有个缺点:对于一个时间部,这里的ABC是一个固定的值 ,如果时间部不同,那么ABC也不同,那么就无法实现convolutional。原创 2025-04-17 15:09:57 · 436 阅读 · 0 评论 -
视线估计的相关研究
POG是每只眼睛在视网膜最高敏锐度的区域(中央凹陷区域)注视的点在图像中的呈现。原创 2025-04-17 15:08:17 · 133 阅读 · 0 评论 -
残差网络连接,使得输入与输出的尺寸一样
这里采用双线性插值法。原创 2024-12-07 21:33:10 · 289 阅读 · 0 评论 -
DVGaze
要理解DV-Gaze中的- 这是一个专门设计的卷积块,旨在处理来自两个不同视图的信息(例如,在注视点估计任务中的左眼和右眼视图)。- DIC块的主要目标是在卷积过程中使这两个视图之间的信息进行交互,通过结合来自两个视图的信息来增强整体特征表示。- 在卷积过程中,两个视图的信息是相互交换的。这意味着DIC块不是单独处理每个视图的特征,而是处理并结合两个视图的特征。- 这种信息交换允许网络整合来自两个视图的互补信息,从而捕捉到更全面和准确的特征。- DIC块在多个特征尺度上执行这些操作。原创 2025-04-17 15:08:02 · 706 阅读 · 0 评论 -
MAMBA start!!!
通过这种方法,HiPPO能够在每个时间步更新多项式的系数,从而动态地捕捉输入信号的变化,同时避免了维数爆炸的问题。是一组特殊的多项式,它们的系数选择使得任意两个不同阶的多项式之间的内积为零。在HiPPO模型中,通过将序列数据投影到正交多项式的基上,可以将数据压缩成一个系数向量,这个向量的每个元素对应于一个特定阶数的多项式系数。这样,原始的序列数据就被转换成了一个低维的表示形式,这个表示形式捕获了序列的关键特征,同时减少了存储和计算的需求。原创 2025-04-17 15:09:35 · 196 阅读 · 0 评论 -
Lightm-Unet代码注释
组归一化(Group Normalization,简称GN)是一种归一化技术,它在一组通道内进行归一化,而不是在整个通道维度或批次维度进行归一化。这样可以在小批量甚至单样本情况下保持稳定的训练效果。假设:假设你有一个输入张量,其形状为,而为 32。如果你使用作为归一化参数,那么组归一化会将这32个通道分成8组,每组包含4个通道,然后在每组内进行归一化操作。原创 2025-04-17 15:06:01 · 389 阅读 · 0 评论 -
基于点的三维激光雷达点云检测器
几何坐标和一个强度值,当这些点组合在一起时,就会形成一个点云,即空间中代表3D形状或对象的数据点集合,总之,点云是一种以点为基本单位的。上下文质心感知(Context-aware Centroid Perception)是指在感知任务中,考虑周围环境和上下文信息来。前景点,背景点:在计算机视觉和图像处理领域,前景点(Foreground Points)是指在图像或点云中。前景点与背景点相对应,背景点通常指代。,数据集中的每个点代表。原创 2025-04-18 09:56:15 · 131 阅读 · 0 评论 -
图像修复笔记(香港城市大学和微软亚研院团队2020 CVPR TPAMI)
(例如胶片颗粒film grain和褪色color fading),应通过利用进行修复;而(例如划痕scratches和灰尘dust spots),需要利用进行修复。合成图像和真实图像首先通过一个共享的变分自动编码器()映射到同一个隐空间。原创 2025-04-18 09:55:02 · 884 阅读 · 0 评论 -
RMSIN论文阅读
旨在根据实现遥感图像中目标对象的像素级定位:像素级定位指的是在图像中对目标对象的每个像素进行准确的定位和标记。这意味着不仅要识别图像中的目标,还要精确地确定目标的边界,并为每个像素分配相应的类别标签。指的是神经网络中某一层神经元对输入数据的感知范围。在卷积神经网络(CNN)中,每一层的神经元只关注输入数据的一个局部区域,而这个局部区域的大小就是该神经元的感受野。不同的感受野指的是在神经网络的不同层中,神经元感知输入数据的范围大小不同。原创 2025-04-17 15:11:56 · 414 阅读 · 0 评论 -
MindSpore开源创新实践
Stable Diffusion是一种基于潜在扩散的机器学习模型,能够将文本描述转化为高质量的图像。卷积核的参数就是本身的大小,例如3*3的卷积核,参数为9。训练中加参数:往callback(回调函数)里面塞。反向传播要考虑所有参与计算的导数,包括激活函数。超参数:人为自己设置的参数,训练前自己写的。参数数量200*100+100*100。最大池化:选最大是因为特征最明显的数据。全连接网络是前馈网络dence层。shuffle是因为要增加特征。relu激活函数优缺点。test集只要标准化。原创 2025-04-18 09:56:59 · 111 阅读 · 0 评论 -
pointnet pointnet++论文笔记
平均交并比。交并比(IoU,Intersection over Union)是一个衡量两个集合之间重叠程度的指标它的计算方式是将预测区域与真实区域的交集大小除以它们的并集大小。原创 2025-04-18 09:52:43 · 901 阅读 · 0 评论 -
虚拟机教程
举例:在网址栏上输入 ip地址+端口号。HTTPS服务器的端口号:443。SSH服务器的端口号:22。Web服务器的端口号:80。FTP服务器的端口号:21。原创 2025-04-18 09:55:47 · 127 阅读 · 0 评论 -
RMSIN代码复现过程实录(远程服务器完成)
定义:掩膜通常是一个与原始图像大小相同的二值或布尔图像,其中,选定的区域被标记为1(或True),而其余区域被标记为0(或False)。用途:当对图像应用一个操作(如滤波、边缘检测、区域提取、图像增强等)时,掩膜可以用来限制这个操作只在图像的特定区域内发生。在这个环境下安装必要的包,通常在requirements.txt文件里面。层内尺度交互模块和层间尺度交互模块来处理不同尺度内和跨尺度的细粒度信息。记得一定要cd 进入代码的文件夹目录!安装mmcv,试了很多次,这个命令可以成功安装。原创 2025-04-17 15:12:38 · 319 阅读 · 0 评论 -
语义分割技术
一般而言,浅层特征注重边缘、纹理等空间细节,但缺乏高级语义;而深层特征具备精确的高级语义信息,但缺乏空间细节信息。由于传统的卷积运算一次仅能处理一个局部领域,这大概率会导致大尺寸对象分割的不完整性。,容易引起局部领域的信息丢失,同时,当扩张率选取不恰当时还会造成网格(棋盘)效应;后再用卷积进行更细致的特征融合,然后不断细化,使其整体结构更加对称。不同抽象层级的特征具有不同的独特语义表征。基于传统的图像分割算法目前较多的是作为。,从而提取到更具有判别力的特征。连接操作缓解梯度弥散的动机。原创 2025-04-17 15:13:42 · 325 阅读 · 0 评论 -
跨模态蒸馏
蒸馏损失是学生模型的损失函数,它被设计为使学生模型的预测尽量接近教师模型的预测。在这种情况下,损失函数Lkd包括了KL散度项,用于度量学生模型(fθs)和多模态教师模型(fθt)之间的知识差异,其中教师模型同时考虑了两个模态的信息。认为在多模态或多视角数据中,每个视角或模态单独包含的信息足以支持后续任务的需求,而不需要考虑其他视角或模态的信息。这个假设的基本思想是,例如:在驾驶汽车时,司机可能更关注视觉信息(如道路和交通标志),而对听觉信息(如收音机的声音)或触觉信息(座椅的感觉)的注意力相对较低。原创 2025-04-18 09:51:41 · 808 阅读 · 0 评论 -
UMAEA论文阅读
MMKG为一个五元组G={E, R, A, V, T},其中E、R、A和V分别表示实体集、关系集、属性集和图像集。T⊆E×R×E是关系三元组集。给定两个MMKG G1 = {E1, R1, A1, V1, T1} 和 G2 = {E2, R2, A2, V2, T2},MMEA旨在识别每个(e1i,e2i),其中 e1i ∈ E1,e2i ∈ E2,且 e1i 和 e2i 对应于。M = {g, r, a, v}表示为可用模态的集合。原创 2025-04-17 15:12:19 · 489 阅读 · 0 评论