自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(225)
  • 资源 (14)
  • 收藏
  • 关注

原创 人工智能论文通用创新点(一)——ACMIX 卷积与注意力融合、GCnet(全局特征融合)、Coordinate_attention、SPD(可替换下采样)

很显然,H维度和W维度并不是独立的,我们还得考虑它们的关系,因此,我们将他们拼接,并通过卷积进行特征的融合,然后再进行切分,经过sigmoid得到X轴和Y轴的注意力权重。如下图所示,对于卷积,stage1用1*1的卷积代替3*3的卷积,得到不同位置的特征,stage2再利用类卷积操作进行偏移,实现3*3卷积的效果;我们在上文提到,自注意了机制是按照窗口进行计算的,具体实现是,首先我们对key做一个特征整合,具体来说是按照一个窗口重构出特征,然后对q中的每一个特征点,与key的窗口进行自注意力计算。

2023-09-02 23:42:33 1143 2

原创 RT-DETR论文解读与代码

目前以大名鼎鼎的YOLO为代表的基于CNN的实时监测网络需要NMS进行后处理,导致不能很好的优化网络,并且网络不够健壮,从而导致检测器的推理速度出现延迟。研究者也分析了Anchor-based和Anchor-free的YOLO的性能,发现Anchor并不是影响实时监测的关键要素,而NMS后处理彩色。DETR很好的解决了后处理对于模型的限制,却受限于Transformer巨大的计算量,无法发挥实时监测性。因此,作者想要重构detr,使其具有实时性。

2023-06-15 17:37:57 1856 3

原创 凸优化系列——约束优化问题

局部最优解;全局最优解;严格最优解注意几类非光滑函数的转化;

2023-06-14 08:51:25 322

原创 凸优化系列——无约束优化问题

无约束优化问题的最优性条件最小二乘问题:采用适当的方法可将约束优化问题转换为无约束优化问题;最优解的定义:无约束优化问题的最优性条件需要说明的是,由于二阶梯度可以取0,我们由一元函数的知识可以知道,它是必要条件而非充分条件,当把等号去掉,就变为充分条件证明:用反证法充分条件对于最优化问题的求解,其基本思路是,(1)首先找一个x_k,判断x_k是否为最优解;(2)如果x_k不是最优解,找下一个x_k信赖域方法更像是线搜索方法反过来,即先确定步长的范围,再确定方向,比较复杂。

2023-06-10 16:26:57 1123

原创 凸优化系列——最优化问题

凸优化问题如下:为什么要求不等式约束是线性函数呢?我们知道凸函数的下水平集是凸集。为什么要求等式约束是线性的呢?线性函数表示一个超平面,他也是凸集也就是说,对于凸优化问题,我们要求可行集是凸集对于下列问题,我们看似它不是凸优化问题,但是我们可以给它进行化简,将其化简为凸优化问题。

2023-06-08 21:18:58 741

原创 计算机视觉特征图可视化与注意力图可视化(持续更新)

可视化代码:使用:feature_visualization(features, name, stage_id, save_dir=ROOT / "visual")结果示例:可视化代码:使用:feature_visualization(features, name, stage_id, save_dir=ROOT / "visual")结果示例: 优化的可视化代码可视化结果更加清晰参考:GitHub - z1069614715/objectde

2023-06-08 18:20:02 1876

原创 凸优化系列——凸函数

凸函数直观上来说,就是两点之间的函数值小于两点连线的函数值线性函数既是凸函数,也是凹函数对于二次函数,如果Q矩阵是半正定矩阵,那么它的二阶导为Q为半正定矩阵,根据凸性判定的二阶条件,它也是凸的。最小二乘函数总能够写成AA^T,因此也是凸的。

2023-06-05 21:30:02 1598

原创 凸优化系列——凸集

最优化问题是决策问题,选择一些可以执行的策略使得目标最优;一个最优化问题包括。

2023-05-28 23:34:10 953

原创 AAAI顶会行人重识别算法源码解读——Relation Network for Person Re-identification

在这里我们使用的是清华大学的行人重识别数据集market1501。数据集的目录如下,images文件夹下是所有的行人图片。poses文件夹下是姿态估计的标签文件(有行人重识别的研究首先进行姿态估计,然后再获得行人的特征表示)。meta.json文件夹下是存放的每个人在6组摄像头的图片。splits文件夹下是数据集的划分方式。json在构建数据集dataloader时需要使用image文件夹下,图片的命名规则如下,如00000000_0001_00000011。

2023-03-19 23:27:57 735 2

原创 多模态任务之视听事件定位(AVEL)算法解读及源码——Cross-modal Background Suppression for Audio-Visual Event Localization

在弱监督任务中,只有整个视频的分类标签,输出层预测为C+1,+1是因为is_event_scores不能再用于计算每一秒的前景和背景分类损失,只能计算整个视频的前景和背景分类损失。top-K mean操作,即我们对每一个视频,取出分数最高的4s的视频特征和音频特征,取平均,代表整个视频的分数(整个事件,在这个数据集中,一个视频对应一个分类),这样就排除了干扰。SENet 等提出的空间注意力和通道注意力,获得视频图像数据的初步特征,对于输入的音频数据,使用RNN进行特征提取获得初步的特征。

2023-03-11 21:26:01 748 1

原创 AAAI顶会行人重识别算法详解——Relation Network for Person Re-identification

以往行人重识别相关工作表明,利用描述身体部位的局部特征,以及一个人的图像本身的全局特征,可以提供健壮的特征表示,即使是在缺失的身体部位的情况下。

2023-03-05 11:32:00 1805 1

原创 基于Attention的行人重识别项目实战--Relation-Aware Global Attention for Person Re-identification

在项目环境上,只需要我们装好pytorch即可,数据集推荐使用港中文大学数据集,刚开始下载的文件只有release文件夹,里面只有一个.Mat文件夹,我们需要从中提取出所有的信息。detected文件夹和labeled文件夹是两种信息,一种是通过目标检测算法检测出的行人数据,一个是人工标注的。数据通过6组摄像头获得,每个人有10张图片,通过一对摄像头获得,它的命名规则是最前面的1表示摄像头id,001表示这是第几个人。后面1表示这是这对摄像头id。再后面的01表示这个人的10张图片的序号。

2023-03-01 22:44:09 582 2

原创 基于注意力机制的行人重识别(Reld)模型论文解读----Relation-Aware Global Attention for Person Re-identification

任务概述:在多摄像头的复杂场景中,快速定位查找指定目标的所有结果。

2023-02-26 11:18:14 856

原创 基于YOLOv5的细胞检测实战

如下图所示,我们有一个医学细胞数据集,需要从数据集中检测出三种不同的细胞。标签中已经标注了细胞的类别和位置。我们也可以看到,三种细胞有着不同的形态和颜色,同时数据集的标签也存在没有标注到的细胞。

2023-02-25 16:36:12 2376

原创 基于视频流⽔线的Opencv缺陷检测项⽬

输入为视频数据,我们需要从视频中检测出缺陷,并对缺陷进行分类。

2023-02-23 18:05:13 2401 3

原创 基于Opencv的缺陷检测任务

任务需求:使用opencv检测出手套上的缺陷并且进行计数环境配置:pip install opencv-python。

2023-02-22 11:47:53 928 1

原创 Semi-supervised(半监督)布料缺陷检测实战

对于常规的缺陷检测,常常需要我们准备好数据,使用分割或者检测的方法选择模型,进行训练。但是有一个问题。数据集使用的是一个经典的缺陷检测数据集,只使用其正常数据。labels目录下的txt文件注明了正常的图片和异常的图片。

2023-02-21 20:21:22 898 2

原创 基于YOLOV5的钢材缺陷检测

数据集使用的是东北大学收集的一个钢材缺陷检测数据集,需要检测出钢材表面的6种划痕。同时,数据集格式是VOC格式,需要进行转化。

2023-02-12 21:03:08 5371 1

原创 特斯拉无人驾驶解读

因此,在模型中还加入了记忆模块,我们可以看到,Feature queue是一个20*80*256*60的序列,其中20*80很显然是特征图大小,256是通道数,60是序列长度。首先,8个视角的信息肯定是有重复的。整体框架如下,首先通过CNN和BiFPN获得多尺度特征,并映射到3D向量空间,然后缓存一个60时刻的时间序列的特征,并使用LSTM进行处理,最后的相互之间独立的下游任务。在自动驾驶过程中有一个问题,离得近的物体比较大,离得远的物体比较小,为了解决这个问题,可以采用FPN的思想,获得多尺度的特征。

2023-02-11 20:04:28 1605

原创 TSDF算法应用与源码详解

1.原始图片;2.对应的深度信息;3.每张图的相机位姿;4.相机内参原始输入图像数据(就是一个场景多个视角拍摄的结果)输入图像的深度信息,位姿信息等(一般由相机得到,也可以通过算法得到)整体流程类似于TSDF的更新和组合的过程,一步步计算各个体素(位置的)TSDF值再把他们拼接起来。我们可以将各个体素看成是一个个积木,将积木拼接成一个整体。首先我们需要构建一大块空区域(不能太大,否则GPU显存不够),因此,对于三维重建来说,室外场景比室内场景更难,因为室外场景的空间更大。

2023-02-11 16:35:57 1263

原创 三维重建——NeuralRecon项目源码解读

然后,我们需要将特征图的特征映射到对应体素上,其具体过程为首先由初始化的体素索引得到体素的实际位置,然后将体素的实际坐标通过坐标变换映射到像素坐标。-o是指定下载后存放的路径,--preprocessed_frames原始数据集太大,有1.2T,指定后,保留场景个数,但是对场景的图片进行采样,下载一个较小的数据集版本,供跑项目使用。然后对得到的体素的特征进行稀疏卷积,并使用gru进行片段的融合,即每一个片段需要考虑到之前的片段的特征,同时gru还可以对重复的部分进行遗忘。

2023-02-11 10:15:42 1584 4

原创 三维重建——商汤NeuralRecon算法详解与论文解读

三维重建,就是将2D的图片信息重建为3D的信息。应用领域广泛。可以应用于原型设计、虚拟现实等。

2023-02-04 11:44:35 2584

原创 关键点匹配——商汤LoFTR源码详解

得到4800*3200(4800是区域的个数,3200是特征的个数)3200表示,每个区域有5*5的像素点,通道数为128.以对应粗粒度的匹配结果。然后使用互相最近邻,也就是说,如果说A图上的a点与B图的b点权重最大,如果两个点需要匹配上,也要求B图b点与A图a点的关系权重最大。之前经过粗粒度匹配,筛选出了匹配的区域,获得了匹配的索引。首先,对于demo的运行,首先需要准备好需要用于关键点匹配的数据,提供的代码中置于了image文件夹下,然后是训练的权重,代码中下载了室内场景和室外场景的训练权重。

2023-02-01 22:21:25 2380 1

原创 关键点匹配——商汤loFTR算法详解与论文解读

本文提出了一种新的局部图像特征匹配方法。整体网络结构采用由粗到细的方式,即首先在粗糙层次上建立像素级密集匹配,然后在精细层次上细化良好的匹配。作者采用自注意力层和交叉注意力层进行特征提取,Transformer的全局接受域很好的应对了在背景相似的图像区域中特征匹配的问题。

2023-02-01 14:00:52 3273

原创 车道线检测源码详解

取出数据路径和标签路径,并做以平移为主的数据增强,对于标签的构建,将标签表示为4*18*2的矩阵,4代表4条车道线,18代表18行,2代表车道线位置的行和列。整体网络结构比较简单,就是使用resnet进行特征提取,然后连接输出层输出结果,输出的结果为1*210*18*4的矩阵,201则是分类概率。位置的计算:期望替代绝对,预测得到的实际位置点由每行200个网格期望得到,而不是直接使用softmax。结构损失:同一条车道线,相邻的行中车道线位置的预测相似。构建网格,将标签映射到200*200的网格中。

2023-01-30 13:48:16 971

原创 基于深度学习的车道线检测论文解读

车道线检测使用OpenCV就能够实现,而基于深度学习的车道线检测尝试解决车道线检测中的遮挡问题。

2023-01-26 16:44:37 1324

原创 深度估计源码详解

项目中所包含的库直接使用pip install就好,但是有3个地方需要处理一下:fcntl,这个需要打开anaconda安装路径中的自己当前使用的环境,然后进去lib文件夹中新建一个fcntl.py 放在lib下,fcntl.py在源码中安装路径下已经提供了,需要自行复制到环境的lib文件夹中curses,这个包安装显示找不到对应的包,需要手动下载后本地安装,地址为https://www.lfd.uci.edu/~gohlke/pythonlibs/#curses。

2023-01-25 18:01:51 1365 2

原创 深度估计算法原理与论文解读

深度估计,即通过输入的彩色图像,获得每个像素点离相机距离的远近(热度图) ,热度图的深浅表示距离的远近。可以应用于AR、VR以及自动驾驶/辅助驾驶任务中,通常是作为上游任务,与通过传感器获得深度信息相比,这种方式能够大大节约成本。数据集:KITTI数据集。

2023-01-23 16:35:20 2355

原创 deepsort源码详解

由于我们需要使用yolov5/yolov8获得人的检测框,因此,环境与yolov5的环境保持一致即可。YOLOv5/yolo v8的权重时单独训练的,通过参数进行指定:yolov8m.pt...ReID特征为行人重识别任务,用于deepsort的级联匹配中,也需要提前训练好,通过进行指定:...还可以指定追踪的对象,YOLO预训练权重是在coco数据集上进行训练,可以指定coco数据集的类别,也可以自己在另外的数据集上进行训练,并指定类别可以指定格式进行追踪,支持图片视频等。

2023-01-18 13:44:00 1064

原创 Openpose算法源码分析

然后将关键点热图和PAF向量拼接,输入下一个stage,分别使用卷积进行特征提取,输出关键点热图和PAF向量,拼接后输入下一阶段。由于需要计算肢体每个点在肢体方向投影的积分,因此,需要计算定积分,需要进行编译操作。使用向量叉乘根据阈值选择肢体的区域,任何向量与单位向量的叉乘即为四边形的面积,当点位于肢体区域时,平行四边形。基于此,选择肢体的区域。由于网络输出的是关键点的热度图和PAF亲和度图,因此,需要为此制作标签。构建肢体的可能区域,即以两个关键点为顶点的一个矩阵,区域内所有点的方向与肢体方向相同。

2023-01-13 23:39:42 1281

原创 二部图和匈牙利算法

设G为二分图,若在G的子图M中,任意两条边都没有公共节点,那么称M为二分图G的一组匹配。在二分图中,包含边数最多的一组匹配称为二分图的最大匹配。交替路:从一个未匹配点出发,依次经过非匹配边、匹配边、非匹配边…形成的路径叫交替路。增广路:从一个未匹配点出发,走交替路,若能到达另一个未匹配点,则这条交替路称为增广路。例如,3一5→1→4→2—7观察增广路,我们会发现:非匹配边比匹配边多一条。只要把增广路中的匹配边和非匹配边的身份交换(即倒过来走),交换后,图中的匹配边数目比原来多了1条。

2023-01-12 22:57:23 580

原创 openpose:Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields ∗

姿态估计任务首先需要检测出人体的各个关键点,将人体关键点进行拼接。任务的困难有,首先,对于关键点检测任务,需要处理遮挡的问题,在拼接的过程中,需要处理多人的情况,即不能将不同人的关键点进行拼接。

2023-01-12 14:50:35 2098

原创 神经网络模型的参数量和FlOPS

FLOPS:注意S是大写,是 “每秒所执行的浮点运算次数”(floating-point operations per second)的缩写。它常被用来估算电脑的执行效能,尤其是在使用到大量浮点运算的科学计算领域中。正因为FLOPS字尾的那个S,代表秒,而不是复数,所以不能省略掉。FLOPs:注意s小写,是floating point operations的缩写(s表复数),意指浮点运算数,理解为计算量。可以用来衡量算法/模型的复杂度。

2023-01-10 20:20:21 2589

原创 RPM-Net源码详解

数据读取需要构建sourse点云数据和经过变换的reference点云数据。

2023-01-06 15:34:30 944 1

原创 论文精读:RPM-Net: Robust Point Matching using Learned Features

论文地址:https://arxiv.org/pdf/2003.13479.pdf点云配准可以当做一个基础的上游任务,根据从不同视角下获取的点云数据配准为完整的点云数据,下游任务众多基本任务:求一个变换矩阵,使得两个具有未知点的点云数据重合。刚性与非刚性:刚性配准:旋转和平移操作(通常不改变大小)非刚性配准:还包括了缩放和裁剪等操作 RPM-Net的基本思想:使用神经网络实现需要手工设计的参数和迭代 训练数据: ICP分两步迭代解决刚性点云配准问题,(1)对空间最近点对应进行硬赋值,然后(2)找

2023-01-05 22:53:15 1461

原创 PF-Net源码详解

参数配置使用默认参数即可,但是windows操作系统下,需要将--workers设置为0.

2023-01-05 14:35:36 1312 17

原创 论文精读:PF-Net: Point Fractal Network for 3D Point Cloud Completion

点云补全:由于扫描或者距离的原因导致点云局部缺失,对其进行补全 核心思想:首先重构其骨架,然后重构其细节特征 损失函数:损失函数由两部分组成,第一部分为预测与真实的损失,用距离衡量,包括预测点最近的真实点的距离和真实点到最近的预测点的距离。 第二部分为判别器的损失,与GAN一致 现有的点云生成网络由于生成完整的点云,总是会改变已有的点,从而造成噪声和误差,因此PF-Net只生成缺失的点云,此外,F-Net利用基于特征点的多尺度生成网络预测缺失的点云。同时,在损失函数中,包含多阶段生成的损失

2023-01-04 21:19:47 903 3

原创 PointNet++源码详解

分类任务的整体流程为,首先类似于卷积,堆叠多层PointNet++进行局部特征提取,需要注意的是,在最后一层pointnet++中,只分为一组,以获得全局特征,输出层由全连接层,最后使用softmax进行归一化。根据中心点按照多个半径得到子集簇,多个半径是实现多尺度特征融合的方式之一,另外,不同的半径选取的簇中,的点的个数也不同,例如半径为0.1,k=16,半径为0.2,k=32。然后进行上采样,对于第一次上采样,此时只有一个点,直接进行复制,其他的按照距离的远近生成权重参数,进行插值。

2023-01-04 13:19:05 1039

原创 论文精读:PointNet++: Deep Hierarchical Feature Learning onPoint Sets in a Metric Space

另外,有一个细节,作者将采样的点的个数做了固定,比如说每个簇选取周围的16个点,那么在稀疏的地方,就有可能不足16个点,这时,将最近的点进行复制后补齐。在密集的地方,可能多于16个点,这时,只保留最近的16个点。PointNet没有考虑到点云的局部结构,因此,作者引入了一个分层的神经网络,它能够将点云划分为一个个子集,并提取局部特征,针对点云密度不均匀的问题,作者提出了多尺度策略。第二步,分组,即提取各个簇的局部特征,每个簇选取多种半径,多个样本点进行局部特征提取,最后将不同半径的局部特征进行融合。

2023-01-03 18:08:05 647

原创 论文精读:PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation

无序性:只是点而已,排列顺序不影响近密远疏的特性:扫描与视角不同导致非结构化数据,直接CNN有点难要解决的任务就是如何对点云数据进行特征提取。

2023-01-02 16:30:48 553

人工智能+Vectornet源码详解+博客资源

人工智能+Vectornet源码详解+博客资源,博客地址https://blog.csdn.net/qq_52053775/article/details/128510992

2023-01-01

博客资源:clip-demo测试效果展示

博客资源,博客地址:https://blog.csdn.net/qq_52053775/article/details/127461404.clip--demo测试效果展示

2022-10-22

博客资源+seaborn相关操作

博客配套资源,博客地址:https://blog.csdn.net/qq_52053775/article/details/125905536 给个好评吧!

2022-10-14

博客资源+pandas相关代码

博客中pandas相关操作代码,博客地址:https://blog.csdn.net/qq_52053775/article/details/125626554, 给个好评吧!

2022-10-14

博客资源+Matplotlib绘图的基本使用

Matplotlib绘图的基本使用。建议参考博客:https://blog.csdn.net/qq_52053775/article/details/125866631 给个好评吧!!

2022-10-14

python+词云图+自然语言处理

机械压缩去词 文本预处理 词云图

2022-07-13

自然语言处理+情感分析+主题分析+词云图

词云图 情感分析 LDA主题分析 机械压缩去词

2022-07-13

数学建模+时间序列预测+LSTM+股票数据分析

数据挖掘 LSTM 时间序列预测 随机森林 基于LSTM的股票数据分析 数学建模 探究股票各指标的相关性、建立模型 建立LSTM时间序列模型

2022-07-13

基于LeNet-5的手写体数字识别

基于LeNet-5的手写体数字识别

2022-04-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除