0812
cv慕尼黑
人体姿态预测
引入graph model,因为人体是由关节连接的,而且遵循一定物理规律
Hourglass - Unet - Autoencoder 2016 Seg Net
优化了上采样:最近邻采样.二次线性插值、三次插值
还有残差连接:在每个分辨率下保留空间知识
残差连接提供空间信息+下采样提供语义信息
intermediate supervision:多了中间损失用于优化
Open Pose 2019
0813
小土堆yolo 5p
5p:
yolov5 中的img-size指的是处理过程中的尺寸,最终输出会恢复到输入尺寸
0814
cv慕尼黑
6p单目标追踪
分为三类:
1.匹配/相关问题: 1和2,
2.外观模型学习问题 : 3
3.时序预测问题
1.Learning to Track at 100 FPS with Deep Regression Networks”. ECCV 2016. GOTURN
认为上下两个特征提取器有相同的权重,原文中用了冻结这个词
假设:物体目标移动很慢,从而选取区域
参数化输出也是创新点,但我没找到
优缺点
PROS of GOTURN: – No online training required. – Tracking is done by comparison, so we do not need to retrain or finetune our model for every new object. – Close to the template matching approach that we saw in the first lectures for object detection – This makes it very fast! • CONS: – We have a motion assumption. If the object moves fast and goes out of our search window, we cannot recover
GOTURN 的优点:
– 无需在线训练。
– 通过比较进行跟踪,因此我们不需要为每个新对象重新训练或微调我们的模型。
– 接近我们在第一堂课中看到的用于对象检测的模板匹配方法
– 这使得它非常快!
• 缺点:
– 我们有一个运动假设。如果物体移动得很快并超出我们的搜索窗口,我们无法恢复
2.“Learning correspondence from the cycle-consistency of time”. CVPR 2019
自监督学习(Self-Supervised Learning)——Generative Methods-CSDN博客
通过视频的时序一致性来构建监督信号进行自监督学习
无监督
3.„Learning Multi-Domain Convolutional Neural Networks for Visual Tracking“. CVPR 2016
论文阅读:MDNet: Learning Multi-Domain Convolutional Neural Networks for Visual Tracking-CSDN博客
在线更新,在测试的时候也要微调神经网络
训练时:前面的卷积层和全连接层公用,一起训练,只有fc6层是分别训练的
测试时:只微调fc6,但作者也推荐fc4和5都微调,获得更强的学习能力
Online appearance model learning entails training your CNN at test time.
– Slow: not suitable for real-time applications
– Solution: train as few layers as possible
在线外观模型学习需要在测试时训练 CNN。
– 速度慢:不适合实时应用
– 解决方案:训练尽可能少的层
优缺点:
• PROS of MDNet:
– No previous location assumption, the object can move anywhere in the image
– Fine-tuning step is comparatively cheap
– Winner of the VOT Challenge 2015 (http://www.votchallenge.net)
• CONS:
– Not as fast as GOTURN
• MDNet 的优点:
– 无需预先假设位置,物体可以在图像中的任何位置移动(解决了GOTURN的问题:物体移动太快或者相机运动了,就找不到物体了)
– 微调步骤相对便宜
– 2015 年 VOT 挑战赛获胜者 (http://www.votchallenge.net)
• 缺点:
– 不如 GOTURN 快
4.ROLO: Spatially Supervised Recurrent Convolutional Neural Networks for Visual Object Tracking“. arXiv:1607.05781. 2016
CNN for appearance + LSTM for motion
CNN 用于外观 + LSTM 用于运动
6p 多目标追踪
• Multiple objects of the same type
• Heavy occlusions
• Appearance is often very similar
• 同一类型的多个物体
• 严重遮挡
• 外观通常非常相似
范式:tracking by detection:
Find detections that match and form a trajectory
先检测,然后把结果匹配形成轨迹
辅助知识
综述
综述写法:纵(按历史突破).横.纵+横
方法:找一篇最新、次新、次次新综述+该方向最新论文取并集
sci投稿周期
0815
辅助
【深度学习】(1) CNN中的注意力机制(SE、ECA、CBAM),附Pytorch完整代码_se注意力机制-CSDN博客
CBAM——即插即用的注意力模块(附代码)_cbam模块-CSDN博客
怎么插入卷积模块.注意力模块【初学者必看】深度学习修改骨干网络教程 | 以ResNet为例_哔哩哔哩_bilibili BiFPN模块
YOLOv5改进(九)--引入BiFPN模块_在yolov5中加入bi-fpn-CSDN博客
在Yolov5中,使用BiFPN_bifpn加在yolo中结构图-CSDN博客
YOLOv5改进(八)--引入Soft-NMS非极大值抑制-CSDN博客
看下沈鑫、吴国、徐洋的文章
创新点:
1.自制数据集:爬虫
2.插入新模块:SimAM 添加到主干部分的每个瓶颈网络中;在主干的最后一个 C3 块和 SPPF 块之间插入一个 Criss-Cross 注意力层;第三个改进是用 Criss-Cross 注意力层替换主干的最后一个 C3 块;CBAM
3.改变网络构架:进的颈部结构,如 BiFPN
论文结构:
简介
相关工作
我的方法
实验
结论
李沐学ai
2p 1.5h
0818
写论文
yolov5 6.0
看文章看结构
看里边C3.SPFF模块.SiLU、Conv-CBA.
YOLOv5 模型结构及代码详细讲解(一)_yolov5模型-CSDN博客
C3层里的number指的是该模块里边bottelneck的重复次数
PhD-Vlog
看下沈鑫、吴国、徐洋的文章
同济子豪兄 两天毕业 图像分类