分类
1二分类:是猫?不是猫?
多分类:是猫?是狗?是羊?
2深度分类网络 = 特征提取层+分类器
3softmax
4损失函数就交叉熵损失
5分类的两种结构:全连接 :flatten操作 卷积:squeeze操作(把维度为1的列去掉)
卷积方式输入尺寸可不固定
定位
1定位的两种方式: 滑动窗口 改造的卷积神经网络
2滑动窗口:我们通过不断的一个不断滑动的窗口来截取图片中的一部分,并放入分类模型中进行识别,返回所属分类的概率值。
3使用改造的卷积网络
以VGG网络为例 网络最后输出是1*1*4096 这里的4096代表图片属于中物体属于不同类别的概率。
我们改造VGG网络使其 输出为7*7*4096 这里代表的是7*7的图像像素级别的分类概率
这代表原图32倍像素级别下采样的分类概率。
这个图片切片可能是原图片的一部分 我们可以把相同类别的标定框进行合并。
4 滑动窗口存在 窗口大小不确定 移动间距不好确定的问题 计算量大 速度慢
5 改造的VGG网络 会受限于32倍的下采样率
6定位-网络结构
定位输入的是一张图片 通过网络输出的是 标定框信息(位置)+分类结果
损失函数 total-loss = classification-loss + α regression-loss
α 可以使在送损失函数中的分类损失和回归损失中取得一定的平衡
提问:我们这个网络最后输出的feature map 包含空间信息吗?
答:包含 神经网络在学习过程中是根据损失函数的中所需的信息来进行学习的 ,我们的total-loss 中包括 空间的信息。
7我们使用的回归损失函数是平滑L1损失
这个损失函数在x=0时可导 计算优越性