自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 过拟合、欠拟合原因及解决办法

增加惩罚因子(正则化),保留所有的特征,但是减少参数的大小。泛化能力差,训练样本集准确率低,测试样本集准确率低。泛化能力差,训练样本集准确率高,测试样本集准确率低。泛化能力强,训练样本集准确率高,测试样本集准确率高。查看是否是学习率过高导致模型无法收敛。增加模型参数,提高模型复杂度。减少模型参数,降低模型复杂度。参数还未收敛就停止循环。

2024-06-11 16:26:00 505

原创 目标检测经典算法

目标检测目前有 one-stage 和 two-stage 两种,two-stage 指的是检测算法需要分两步完成,首先需要获取候选区域,然后进行分类,比如R-CNN系列;与之相对的是 one-stage 检测,可以理解为一步到位,不需要单独寻找候选区域,典型的有SSD/YOLO。实际上是基于滑动窗口的目标检测。属于暴力方法,从上到下、从左到右,使用滑动窗口,并对窗口内图像进行特征提取,并使用SVM对窗口内物体进行分类,使用回归器预测边界框。

2024-06-10 17:47:29 874

原创 目标检测——指标评估

AP:Average Precison,所有预测图片内某一类别(横轴为Recall,纵轴为Precision)下的面积。mAP:mean Average Precision, 各类别【AP】的平均值。True Positive(TP):预测框与真实框的IOU>IOU阈值,IOU阈值一般设置为0.5,0.75,0.95等。在的评估指标规定下,一个真实框(groud truth box)只有一个 TP框,其它均为FP框(即使IOU大于阈值)。

2024-06-10 15:37:54 461

原创 CNN中的注意力机制

然而,该模块的主要限制是全局平均池化可能无法捕获复杂的全局信息,并且全连接层增加了参数的数量,可能会提高网络的复杂性。每个通道被视为一个独特的特征,允许通道注意力通过学习通道注意力权重来动态调整网络中不同通道(或特征图)的重要性。像GENet 和PSANet 这样的模块是使用深度卷积和用于特征聚合的子网络设计的空间注意力方法。以利用通道和空间注意力模块的优势,一些混合注意力模块,如剩余注意力网络和SCNet,联合预测通道和空间注意力网络。通道注意、空间注意以及通道和空间混合注意是目标检测中常用的注意方法。

2024-06-09 13:18:28 571

原创 3D目标检测主要数据集

itti数据集包含7481张训练图像、7518张测试图像、相应的点云、相机校准文件以及汽车、行人和骑自行车者感兴趣对象周围的注释3D框。数据集是另一个常用的自治数据集,使用六个摄像头,五个雷达和一个LiDAR记录,所有这些都具有360 °视场。Waymo数据集包括1150个场景,每个场景持续20秒,在旧金山弗朗西斯科、凤凰城和山景的各个城市和郊区拍摄。该数据集的注释数量是KITTI的7倍,图像数量是KITTI的100倍。的,其中包括75%的汽车,4%的骑自行车的人和15%的行人。3.Waymo数据集。

2024-06-07 10:06:06 222

原创 3D目标检测常用传感器介绍

基于ToF技术的深度相机发射红外光脉冲,并测量这些脉冲传播到场景中的对象并返回相机所需的时间。通常,LiDAR系统中基于窄脉冲飞行时间(ToF)的光束转向可以分为三类:机械LiDAR,固态LiDAR 和半固态LiDAR。如,结合图像和LiDAR点云数据,通过使用来自相机的颜色和纹理信息以及来自LiDAR的3D数据来进一步增强目标检测。,例如紧凑性,可靠性和机械LiDAR系统的优点,如范围和分辨率,使其性价比更高。激光雷达可以探测到200米以上的物体,但随着距离的增加,物体上的点云中的。

2024-06-06 11:45:34 587

原创 神经网络模型测试套路(二)

(1) 在with torch.no_grad下进行(只测试,无梯度优化)对照CIFAR-10数据集可知,第六类正好是dog类,预测正确。(2)输入验证图片,验证预测结果。

2024-06-05 10:29:20 264

原创 神经网络模型训练套路(一)

一共包含10 个类别的RGB 彩色图片:飞机( airplane )、汽车( automobile )、鸟类( bird )、猫( cat )、鹿( deer )、狗( dog )、蛙类( frog )、马( horse )、船( ship )和卡车( truck )。CIFAR-10数据集中每个图片的尺寸为32 × 32 ,每个类别有6000个图像,数据集中一共有50000 张训练图片和10000 张测试图片。(3) 计算指标(loss,acc),展示模型效果。(3) 反向传播,优化器优化。

2024-06-04 15:34:42 819

原创 池化层(详解)

3.提供空间不变性:池化操作(特别是最大池化)会保留输入的最强特征响应,这意味着即使特征在空间上发生了少量偏移,池化层的输出也会保持不变。这提供了一种形式的空间不变性,对于诸如图像分类这样的任务非常有用,因为我们通常不关心特征在图像中的精确位置。最大池化是取池化窗口内的最大值作为输出,而平均池化则取池化窗口内的平均值。该层能够减少网络的计算量,防止过拟合,并提供空间不变性,这有助于提供模型的性能和泛化能力。2.防止过拟合:由于池化操作会丢弃一些信息,这可以看作是一种形式的正则化,有助于防止模型的过拟合。

2024-06-03 15:02:03 449

原创 梯度爆炸和梯度消失的原因及解决办法

1.合理的初始化权重值。初始化权重,使每个神经元尽可能不要取极大或极小值,以躲 开梯度消失的区域。3.使用其他结构的RNNs,比如长短时记忆网络(LTSM),这是比较流行的做法。2.梯度截断:当梯度的模大于一定阈值时,就将它截断成为一个较小的数。梯度呈指数级增长,变的非常大,然后导致网络权重的大幅更新,使网络变得不稳定。1.权重衰减:通过给参数增加L1或L2范数的正则化项来限制参数的取值范围。梯度趋近于零,网络权重无法更新或更新的很微小,网络训练再久也不会有效果。

2024-06-03 10:37:08 387

原创 激活函数和正则化

防止过拟合的技巧包括:数据集的划分、增大数据量、加入噪声、dropout等。ReLU激活函数具有:简单、线性相关性和非线性增长等特点。常用的激活函数有:ReLU、Sigmoid、Tanh等。原理:是对每层的输入进行归一化处理,减少输入分布的变化。Sigmoid激活函数具有:非线性和可导性等特点。应用场景包括:图像分类、目标检测、语音识别等。Tanh激活函数具有:非线性和可导性等特点。批归一化用于:加速神经网络的训练并提高性能。正则化方法包括:L1正则化和L2正则化。

2024-05-30 10:56:26 289

原创 卷积层、池化层和全连接层的作用及运算过程(简述)

运算过程:将输入层或前一层的所有神经元与当前层的每个神经元进行连接,形成一个完全连接的图结构。作用:全连接层连接上一层所有的节点,即综合所有提取的特征,然后将输出值送给分类器。运算过程:将卷积核与输入图像进行卷积操作,通过滑动窗口进行。运算过程:通过采样或合并操作,将图像的分辨率降低。作用:池化层用于减小特征图的维度,保留主要特征。作用:卷积层用于提取图像特征和进行特征映射。

2024-05-29 18:20:51 271

原创 (下、上)采样简述

下采样实际上就是缩小图像,主要目的是为了使得图像符合显示区域的大小,生成对应图像的缩略图。比如说在CNN中的池化层或卷积层就是下采样。不过卷积过程导致的图像变小是为了提取特征,而池化下采样是为了降低特征的维度。它有反卷积(Deconvolution,也称转置卷积)、上池化(UnPooling)方法、双线性插值(各种插值算法)。上采样实际上就是放大图像,指的是任何可以让图像变成更高分辨率的技术。二是增大感受野,使得后面的卷积核能够学到更加全局的信息。一是减少计算量,防止过拟合;

2024-05-14 10:31:36 263 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除