opencvlearning_唐老师课程

最新推荐文章于 2024-07-13 23:51:10 发布

Satanbab

最新推荐文章于 2024-07-13 23:51:10 发布

阅读量389

点赞数 3

文章标签： python

本文链接：https://blog.csdn.net/Satanbab/article/details/131877256

版权

230230902yolo1逻辑思考
yolo1逻辑：输入4484483图像
中间层：卷积池化层的迭代
全连接层：用来预测目标位置和类别
网络输出结果：77*30的预测结果（这里，这个预测结果的边界框大小和训练是先验框的大小是相同的）
yolov2：p15为了防止偏移过大，限制偏移数量bx=归一化tx+cx
这里得到的结果为：xywh四个指标（需要反映射到原来位置），
***感受野：***每一层的感受野会逐渐扩大，感受野的计算涉及到卷积核的尺寸以及每一层的步长、填充等参数。

yolo3实战
数据集：两个数据包，和对应的路径（）trian和val2014 以及标签的一一对应
text 包含了所有的路径；val包含了所有的val2014的路径

yolo3
特点：1.改进了网络结构，适合小目标
2.先眼眶更加丰富选了5类，存在9种大的 116*90
3.softmax层：
4.视野小的层可以借鉴视野大的层的特征来进行分析。
特征图思考：
准确说特征图属于网络得到的数据，但是其实相对于图片来说可以默认为图片被分成xx来进行数据分析和思考。*但是实际的所用到的数据是通过卷积层来处理的。
卷积的逻辑就是滑行x个进行计算然后形成新的一个

3.多scale，不同特征图融合后进行预测。大采样可以对中采样有一个辅助作用
4.残差连接：将母层（先进行上采样处理）的和子层做一个相加（通过一定的选择子层是不是继续采用）
输入格式：1313385（先眼眶），1：77；2:1313
yolo2
1.舍弃了dropout（作用杀死一部分全连接神经元），原因：没有了全连接用batch normalazion（卷积网络标配）
2.v2的像素用44844810；
3.全连接层参数多，训练慢。
4.降采样（maxpool函数）
5.聚类提取先验框：kmeans 1-iou 反正最后从2框变成5框
6.recall：产权率，越高越能检测出来，越能捕捉出来。
7.用xyhw和Txyhw（预测）进行对比，得到偏移量。
8.对预测框进行了位置限制，从而减少了漂移量。
9.感受野：22》33》55特征需要越来越集中。（最后的一个点代表原始图中的数量是多少）
卷积核越小越节约参数。
最后一层：卷积核越多越小，特征提取越细致，越往后，感受野越大，太大容易，小目标丢失。
10.实际结果是最后一层加上前面的特征图进行一个结合。

区别
yolo：一个阶段；速度快
rcnn：属于两个阶段：效果好

map：综合衡量检测效果：（精度和recall的综合：recall和process图的面积构成）（看第三节课）
TP(找a给a),FP（男生给了女生出来）,FN（女生变成男生）,TN（找b给b）
position：指的是定位，代表找到目标。

V1介绍：好好看入门级别
one-stage方法
将检测问题转为回归问题CNN解决
对视频实时监测
。
核心思想：用一个框（xyhw位置长宽，confidence：高的大概率是物体）用cnn进行一个转化。
1.给了框看中心（看中心的点是什么物体）利用真实框来计算iou
首先，输入一个格子，产生两种候选框，让置信度比较高的采用，从而计算出一个框。
网络框架
输入图像：4484483固定了（全连接层是固定了（这里属于训练之前需要选好））
2.输入》三次卷积》两层链接最后给了一个1470：7730（30指的是每一格子30：两组框数据，20分类）》输出结果
损失函数：位置误差，置信度误差，置信度误差背景的，分类误差。

缺陷：猫狗一起部分，框是固定的，重叠的东西不好做。

Satanbab

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
opencvlearning_唐老师课程

map：综合衡量检测效果：（精度和recall的综合：recall和process图的面积构成）（看第三节课）***感受野：***每一层的感受野会逐渐扩大，感受野的计算涉及到卷积核的尺寸以及每一层的步长、填充等参数。核心思想：用一个框（xyhw位置长宽，confidence：高的大概率是物体）用cnn进行一个转化。4.残差连接：将母层（先进行上采样处理）的和子层做一个相加（通过一定的选择子层是不是继续采用）7*30的预测结果（这里，这个预测结果的边界框大小和训练是先验框的大小是相同的）
复制链接

扫一扫