文章目录
注意力机制
让网络关注到我们所需要关注的地方
空间注意力机制
在图片的哪个位置更重要
通道注意力机制
通道层次上 哪个特征更为重要(比如点、线、明暗、色域等等)
SEnet
通道注意力机制
经过全局平均池化,全连接层,通过SIGMOD函数 值0-1 与原矩阵相乘
CBAM
先通过通道注意力模块,和原矩阵相乘;再通过空间注意力模块,和原矩阵相乘,最后输出
以下是两个模块
感悟:就是分别在通道和空间上进行池化操作,得到一个权重与原矩阵相乘,让网络更加关注我们所需要的位置;我认为主要是池化层可以让网络自适应注意(max、avg)。
损失函数
focal loss
交叉熵
- p ——真实值
- q——预测值
就是将预测结果与真实标签进行对比计算,值越小,预测越准确,完全正确就是0.
二值交叉熵损失(Cross Entropy Loss)
focal loss
引入调制因子,用于平衡正负样本。(跟WIOU很像)
IoUloss
交并比
再取负对数
优点:尺度不变性;非负性,在0-1之间。
缺点:不能正确反映两者的重叠情况和距离情况。
GIOUloss
C(外框)
优点:增加外框做为惩罚项。
缺点:当预测在真实框之内,giou退化为iou。
DIoUloss
两框中心的欧式距离比上外框对角线距离
优点:可以有效度量,改进了giou的缺点;使用中心点距离度量,收敛比giou更快。
缺点:在长宽比上面还需要改善。
目标框回归损失应该考虑三个比较重要的几何因素:重叠面积、中心点距离、长宽比。
其中alpha和v用来衡量宽高比的一致性。
所以CIoUloss是结合了中心距离度量和宽高比。
WIoUloss
首先WIoUv1,构建了上图的度量方式。
这样的优点是,避免了距离、纵横比等方式导致对低质量锚框的惩罚,放大了低质量锚框的影响,平衡了低质量与高质量锚框。
在v3中,定义了离群度,其中LIoU就是当前的一个损失值,也叫单调聚焦系数。
根据离群度定义了非单调聚焦系数,离群度小的分配一个小的梯度增益,这时的高质量锚框就减少对他的一个惩罚,让模型聚焦于普通质量的锚框;离群度大的分配一个较小的梯度增益,有效得对低质量锚框进行惩罚。
动态体现在离群度上,分母会动态更新,使梯度增益保持在较高水平。
所以WIoUv3是设计了一个动态非单调聚焦机制,合理得分配了梯度增益。
这样修改可以提高模型的泛化能力。
泛化能力:泛化能力是指机器学习模型在处理新样本时的表现能力。
DCNv2可变性卷积
在原来的可变性卷积基础上增加了两点,首先,增加一个可以学习的参数delta P,使得卷积核可以变形;其次增加了一个权重,让卷积核变形范围不超过目标范围。
增加一个参数让卷积可以变形,使得模型更加适应不同的几何形状。
nerf(Neural Radiance Fields)神经网络
1、拍摄得到一系列的图片(数据集);
2、输入密度与颜色进行神经网络训练,得到空间中密度与颜色的分布;
!这里用到了位置编码,(x,y,z,sin(2^n-1*x),…)
3、要得到从某一个角度看过去的颜色情况,
连续:积分
离散:代码里用的公式
这样就可以得到从不同角度看到的照片
(1)可以用英伟达开源的图形化操作程序。
(2)围绕拍摄一段视频,工具直接得到切割的图片和相机参数信息,拖入程序运行,得到三维模型。
(3)评价指标:PSNR:峰值信噪比。