- 博客(57)
- 收藏
- 关注
原创 安装mmdetection
根据自己的cuda版本和torch版本修改下面的网址,找到对应的下载并安装。mmdetection版本:2.11.0。python版本:3.7。
2024-06-28 10:15:34
119
原创 Selective Kernel Networks(CVPR-2019)
提出了一种动态选择机制,允许每个神经元根据输入信息的多个尺度自适应调整感受野大小。设计了一种称为选择核(SK)单元的结构块,利用softmax attention 对不同核大小的多个分支进行融合。对这些分支的不同attention产生融合层神经元有效感受野的不同大小。多个SK单元被堆叠成一个称为选择性核的网络SKNets。文章提出了一种非线性方法,从多个内核中聚合信息,实现神经元的自适应RF大小。我们引入了 “选择性内核”(SK)卷积,它由三组运算符组成:Split, Fuse and Select。
2024-06-14 16:33:10
277
原创 1*1卷积核实现升维降维
升维:卷积核shape为[1,1,3,10],即10组[1,1,3]的卷积核,先用其中一组对这张图片卷积得到[32,32,3]的数据,然后将这3为数据相加之后得到[32,32,1],所以10组卷积核能得到[32,32,10]的输出,这样改变了维度。来源:https://zhuanlan.zhihu.com/p/661786236。假设现在有一张图片形状为[32,32,3],32为长和宽,3代表通道数。降维:同理,只需将10改为想要的维度就可以了。
2024-06-14 11:25:01
107
原创 Dropout Feature Ranking for Deep Learning Models
深度神经网络( Deep Neural Networks,DNNs )已经开始在生物学和医疗保健领域崭露头角,包括基因组学( Xiong et al . , 2015)、医学影像( Esteva et al , 2017)、EEG ( Rajpurkar et al , 2017)和EHR ( Futoma et al , 2017)。然而,DNNs是黑盒模型,因其不可解释性而臭名昭著。在生物学和医疗保健领域,为了推导出可以通过实验验证的假设,提供关于哪些生物学或临床特征驱动预测的信息是至关重要的。
2024-04-23 23:29:30
842
原创 Object Detection of Remote Sensing Images
总之,为了解决在密集场景和复杂背景下检测小物体的困难,同时保持相对较高的精度,一种基于多核扩张卷积(MDC)和变压器的新型单阶段物体检测模型MDCT for RSOD 本文提出了块。卷积与扩张卷积的不同之处在于,卷积中的像素是连续的并且集中于卷积的特征。因此,我们的工作重点是密集场景和复杂背景中的小物体,并提出了一种基于多核扩张卷积和变压器的新型单阶段物体检测模型。此外,一阶段目标检测模型中主要的级联方法与上下文无关,容易导致特征信息丢失,在密集场景和复杂背景下难以区分目标和背景特征。
2024-04-17 20:40:21
29
原创 Salient Object Detection in Optical Remote Sensing Images Driven by Transformer
最近开发了基于 Transformer 的目标检测,以应对基于区域提议和基于回归的目标检测所面临的大计算负载和精度牺牲之间的权衡困境,其自注意力机制可以提供具有潜在能力的全局理解 用于推理稀疏异构分布的地理空间对象内的位置关系。最近,开发了基于变压器的目标检测方法[15]、[16]和[17]。随着遥感图像空间分辨率的提高,从对地观测中频繁、准确地识别感兴趣的地理空间目标对于广泛的应用至关重要,例如城市规划中的违法建设[1]、[2]、军事侦察[3]、 以及用于交通控制的飞机和车辆监控[4],[5]。
2024-04-17 19:05:34
26
原创 An Improved Swin Transformer-Based Model for Remote Sensing Object Detection and Instance Segmentati
为了解决这些问题,我们基于 Transformer 和 CNN 的优点改进了 Swin Transformer,设计了局部感知 Swin Transformer (LPSW) 主干来增强网络的局部感知,提高小规模的检测精度。自注意力机制的结构如图2所示。近年来,虽然出现了许多优秀的算法,如路径聚合网络(PANet)[8]、Mask Score R-CNN [9]、Cascade Mask R-CNN [10]以及按位置分割对象(SOLO)[ 11],典型的问题仍然存在,例如分割边缘不准确和全局关系的建立。
2024-04-17 15:51:28
581
原创 Transformer with Transfer CNN for Remote-Sensing-Image Object Detection
所提出的带有数据增强的 T-TRD(T-TRD-DA)在两个广泛使用的数据集(即 NWPU VHR-10 和 DIOR)上进行了测试,实验结果表明所提出的模型提供了有竞争力的结果(即, 与竞争基准方法相比,百倍平均精度为 87.9 和 66.8,最多分别比 NWPU VHR-10 和 DIOR 数据集上的比较方法高出 5.9 和 2.4,这表明基于 Transformer 的方法打开了 RSI 对象检测的新窗口。因此,TRD 可以处理多个尺度的 RSI,并从 RSI 中识别出感兴趣的对象。
2024-04-17 15:26:08
1048
原创 P2FEViT: Plug-and-Play CNN Feature Embedded Hybrid Vision Transformer for Remote Sensing Image Class
设计目标如下:首先,cls_token源自CNN提取的特征,它描述了输入图像的整体特征,而不是某个patch对应的特征,因此不会导致对特定区域的过度学习倾向。回顾 ViT 和 CNN 模型在自然场景图像分类数据集 ImageNet [6] 上的性能,我们发现,如果没有在较大的数据集上进行预训练,ViT 模型往往具有较差的分类性能。其次,旨在整合CNN和ViT的优点,提出了一种将CNN特征嵌入到ViT架构中的新方法,可以使模型同步捕获和融合全局上下文和局部多模态信息,进一步提高ViT的分类能力。
2024-04-17 14:52:15
405
原创 TRS: Transformers for Remote Sensing Scene Classification
在本文中,我们开发了一种基于ResNet50和Transformer架构的遥感Transformer(TRS),它显着提升了遥感场景分类性能并减少了模型对卷积运算的依赖。与传统的“卷积+Transformer”方法不同,我们不是简单地将CNN和Transformer连接起来,而是将Transformers集成到CNN中。我们将 Transformer 应用于遥感场景分类,并提出了一种新颖的“纯 CNN → CNN + Transformer → 纯 Transformer”结构,称为 TRS。
2024-04-17 10:37:25
337
原创 Hyperspectral Image Classification Using Spectral–Spatial Token Enhanced Transformer With Hash-Based
受到基于 Transformer 的模型在计算机视觉各种任务中提取远程特征的能力的启发 [24],[25],[26],[27],前期工作 [28],[29],[ 30]、[31]、[32]、[33]、[34]引入了用于HSI分类的变压器结构,并取得了可喜的结果。[28]和[30]中的工作捕获了远程空间特征,但忽略了短程空间信息的重要性。值得注意的是,合并 CNN 和 Transformer 在计算机视觉领域表现出了良好的性能 [35]、[36]、[37]、[38],但在 HSI 分类中尚未得到深入研究。
2024-04-17 10:31:59
329
1
原创 Advancing Plain Vision Transformer Toward Remote Sensing Foundation Model
在本文中,我们采用具有约 1 亿个参数的普通 ViT,并首次尝试提出适合 RS 任务的大型视觉模型,并研究此类大型模型的性能。为了处理RS图像中的大尺寸和任意方向的物体,我们提出了一种新的旋转可变尺寸窗口注意力来取代变压器中原来的完全注意力,这可以显着减少计算成本和内存占用,同时通过提取学习更好的对象表示 来自生成的不同窗口的丰富上下文。检测任务的实验表明我们的模型优于所有最先进的模型,在 DOTA-V1.0 数据集上实现了 81.24% 的平均精度(mAP)。
2024-04-17 09:52:43
183
原创 交叉熵损失函数
P(x)代表真实分布的概率,Q(x)代表在预测分布中的概率,log代表自然对数。交叉熵越小,表示预测分布和真实分布越接近,性能越好。其中,C表示类别数,y代表真实标签的one-hot编码,p是模型的预测概率。因此模型与真实标签的预测越接近,损失函数越小。交叉熵损失函数还具有平滑性和凸性质,能够保证优化过程的稳定性和收敛性。在机器学习中用于损失函数。在信息论中,用于衡量两个概率分布之间的差异。
2024-03-14 11:15:51
218
原创 xlsxwriter.exceptions.FileCreateError: [Errno 13] Permission denied: ‘E:
如果你尝试了各种修改文件权限的方法都还不行的话。有可能是因为你打开了想要修改的文件,关闭就好啦。
2023-11-23 15:30:36
179
原创 Attention is all your need
最后一个点对点前馈层的输出经过一个最后的线性层,该层充当分类器,分类器的大小与所拥有的类别数相同。较高的softmax得分会保留模型认为更重要的词的值。分割后的向量分别经过相同的自注意力过程,每个自注意力过程就被称为一个头,每个头 会产生一个输出向量,这些向量在经过最后的线性层之前被拼接成一个向量。解码器是自回归的,它将先前输出的列表作为输入,以及包含来自输入的注意力信息的编码器输出。多头注意力是一个模块,用于计算输入的注意力权重,并生成一个带有编码信息的输出向量,指示序列中的每个词如何关注其他所有词。
2023-11-20 16:38:23
33
原创 CBAM:Convolutional Block Attention Module
一般来说,注意力机制通常被分为以下基本四大类:通道注意力 Channel Attention,告诉网络 what to pay attention to空间注意力机制 Spatial Attention,告诉网络 where to pay attention to时间注意力机制 Temporal Attention,告诉网络 when to pay attention to分支注意力机制 Branch Attention,告诉网络 which to pay attention to。
2023-11-04 15:59:31
94
原创 TOP-1和TOP-5错误率指什么
top-5错误率:对每幅图像同时预测5个标签类别,若预测的5个类别任意之一为该图像的正确标签,则视为预测正确,那么预测错误的概率即为top-5错误率。top-1错误率:若对图像预测1个标签类别,预测错误的概率为top-1错误率。
2023-11-02 15:50:35
98
原创 单阶段检测器存在正负样本不均问题的原因
锚框匹配问题:单阶段检测器通常使用锚框(anchor boxes)来预测目标的位置和类别。在训练过程中,需要将锚框与真实目标进行匹配,以确定哪些锚框是正样本,哪些是负样本。由于目标较少且分布稀疏,往往会导致大多数锚框被划定为负样本,进一步加剧了正负样本之间的不均衡问题。目标密度不均衡:在真实场景中,目标通常是稀疏分布的,即大部分图像区域是背景,而目标只占据少数区域。这导致了正样本(包含目标)的数量相对较少,而负样本(背景)的数量较多,造成了正负样本之间的不均衡。
2023-10-25 10:04:16
69
原创 csp结构是什么
CSP结构通过将输入特征分为两部分,然后在这两个部分之间进行交叉连接的方法来提高深度神经网络的性能。CSP结构能有效提高模型的特征表示能力,从而提高模型的准确性和泛化能力。
2023-10-17 15:53:48
1847
原创 softmax
Softmax函数可以将上一层的原始数据进行归一化,转化为一个(0,1)之间的数值,这些数值可以被当做概率分布,用来作为多分类的目标预测值。Softmax函数一般作为神经网络的最后一层,接受来自上一层网络的输入值,然后将其转化为概率。通过Softmax函数就可以将多分类的输出值转换为范围在[0, 1]和为1的概率分布。
2023-10-11 20:26:32
256
原创 Dropout
Dropout说的简单一点就是:我们在前向传播的时候,让某个神经元的激活值以一定的概率p停止工作,这样可以使模型泛化性更强,因为它不会太依赖某些局部的特征。在训练过程中,如果出现训练样本太少,模型参数太多的情况,模型容易出现过拟合。Dropout就是一个有效的缓解过拟合的操作。
2023-10-11 13:52:04
18
原创 词嵌入Word Embeding
语言数字化的过程叫做Word Embedding,中文名称叫做‘词嵌入’。将文本通过词嵌入转化为词向量,即词的数学表达。目前常见的有One-hot Representation,Word2Vec,Distributed Representation 等方式。
2023-10-10 16:32:04
32
原创 Transformer里的自注意力机制
Transformer的内部结构图如下:左侧为编码块(Encoder block),右侧为解码块(Decoder block)。红框中的部分为多头注意力模块(Multi-Head Attention),是由多个自注意力(Self-Attention)组成的,可以看到Encoder block包含一个Multi-Head Attention,而 Decoder block包含两个Multi-Head Attention。
2023-10-09 10:56:54
198
转载 Unity加载gltf/glb文件
https://blog.csdn.net/m0_68256659/article/details/124007035
2023-09-18 22:02:20
459
原创 ERROR: Failed building wheel for opencv-python Failed to build opencv-python ERROR: Could not buil
【代码】ERROR: Failed building wheel for opencv-python Failed to build opencv-python ERROR: Could not buil。
2023-07-29 16:31:59
532
原创 SIFT算法
SIFT 算法是为了解决图片的匹配问题,想要从图像中提取一种对图像的大小和旋转变化鲁棒的特征,从而实现匹配。人眼观察图片时是对其中的典型区域进行匹配,如果能对特征点区域提取,再对提取到的区域进行描述就可以实现特征匹配。1、选取特征点:人眼对高频区域也就是变化剧烈的区域更加明显,因此一般选择边缘或者角点进行检测。2、尺度不变性:利用高斯金字塔获取不同尺寸下的图像,由新产生的图像获得尺度不变特征。
2023-05-30 14:35:09
155
原创 激活函数(阈值函数)
梯度消失:sigmoid函数趋近0和1的时候变化率会变得平坦,sigmoid的梯度趋近于0.神经网络使用sigmoid激活函数进行反向传播时,输出趋近0或1的神经元其梯度趋近于0.这些神经元叫做饱和神经元。② 当x>0时,ReLU 梯度恒为1,不会随着网络变深而使梯度不断变大或者不断变小,抑制了梯度爆炸和梯度小时问题。① ReLU 可能会让某些节点的输出变为0,这会使神经节点死亡,降低神经网络复杂度,解决部分过拟合问题。当一个神经元在某次激活值为0后,得到的激活值都是0,导致神经元死亡。
2023-05-30 11:27:28
503
原创 命令行和声明式代码
而虽然声明式使用简单,易于理解,但表达能力是有限的的,在表达比较复杂的目标时,往往需要结合命令式一起使用。命令式是指编写的代码更适合计算机,而声明式代码是指阅读者更容易理解的代码。命令式给出每一个需要的指令来达到目标,而声明式是直接描述目标。而命令式则需要用一个for循环把筛选每个学生的过程都写下来。
2023-05-19 17:16:35
39
原创 GPGPU
1、GPGPU(general-purpose graphics processor units architecture,通用图像处理器):是一种利用处理图形任务的图形处理器来计算原本由中央处理器处理的通用计算任务。目前许多显示芯片并没有分开的整数运算单元,因此整数运算的效率较差。(2)更大量的执行单元;(2)显示芯片通常不具有分支预测等复杂的流程控制单元,因此对于具有高度分支的程序,效率会比较差。缺点:(1)显示芯片的运算单元数量很多,因此对于不能高度平行化的工作,所能带来的帮助就不大;
2023-05-18 22:40:08
526
原创 图像处理-8
3、现在假设我们有一个长度为8的信号f=[1 3 5 7 4 3 2 1], 利用哈尔小波进行两层的快速小波变换分解,计算各层的滤波器输出,然后再进行完美重建,请利用与书中例子相同的框图进行计算。的加权求和表示,因此不满足条件二。1.课本322页习题7.10。2.课本323页习题7.16。4.课本323页习题7.11。
2023-03-31 10:44:23
608
原创 图像处理-7
4. 假设课本中给出完美重建滤波器的正交族对应的三个滤波器间的关系式是正确的,并以此为基础,推导。1、r,g,b是RGB彩色空间沿R,G,B轴的单位向量,定义向量。2、请根据课本中Z变换的定义,证明如下结论。
2023-03-31 10:40:40
328
数据挖掘adaboost在人脸检测中的运用论文.docx
2023-05-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人