【知识图谱】在多摄像头的复杂场景中——行人重识别
行人重识别引入——计算机非常火的模块
假设有一千个摄像头,每个摄像头有一段时间,可以先把一个图形转为1024*1024,然后有十万张照片,我们该怎么办呢。
先把十万张图像先提出来进行一个相似度计算,把最相近的先拿出来。一个人提取特征,随便一个卷积网络都能做,其他数据也都能做。
数据集&难点
可以拓展到人脸的等物体的,无非就是提取相似度信息。
遮挡是最难的,通过分区
都是根据自己的数据集,学校的。没有跨域的,做这个的非常多。
分辨率为啥低:场景非常的大
Rank值
rank:把匹配到的按相似度从高到低依次排列,相似度最高的那张图是做对了还是做错了。
Map值
map:求一个均值,求综合的数据,当作一个模型的衡量标准
ap值是一张图像根据模型训练出来的评估结果,Map是综合下来的结果。
损失函数定义
网络模型:只做特征提取(什么网络模型不行,随便一个两个,七八个卷积层都能做),Resnet做特征提取比较多,但随便都可以。但做的时候,可以做的很复杂。
三元组损失
batch
positive:一个人不同数据(希望距离近好)
negative:不同人不同数据(希望距离远好)
利用差异调节参数
同一个人的数据本身就比不同人的数据小
不仅要小还要小一个定值距离
但不好设置,然后训练网络一直在休息,选最不像的positive,选最像的negative
大部分特征提取基于resnet50
第一篇论文——遮挡现象
怎么知道哪些被遮挡了,旷视提出了
1.首先提取局部特征,关键点提取,利用姿态识别模型等得到局部特征。
3.遮挡住的部分没法算相似度,13*13,哪些地方该匹配,哪些地方不该匹配。
旷视的论文:局部特征提取+组合局部特征+卷积运算
热度图:利用pose estimation
局部特征关系整合(图卷积)
正常卷积一个Kernel,滑动就行。图卷积难得是证明过程,公式简单,先定义一个邻接矩阵,但这些值也不能光是0和1,邻接矩阵不是一成不变的,初始化后也要进行学习。没有边的信息最后都不要置为0
利用差异来学习邻接矩阵如何更新,例如全连接2048*13,怎么得到新的邻接矩阵,当前点怎么匹配更好。本身特征加上关系特征,得到一个拓扑结构,怎么知道什么点该算不该算。
图匹配
A P N
看看他们之间的差异,计算相似度,包括遮挡的特征