点上方蓝字计算机视觉联盟获取更多干货
在右上方 ··· 设为星标 ★,与你不见不散
11篇论文的信息概要介绍如下:
1. VRSTC: Occlusion-Free Video Person Re-Identification (Ruibing Hou, Bingpeng Ma, Hong Chang, Xinqian Gu, Shiguang Shan, Xilin Chen)
针对视频行人重识别的部分遮挡问题,我们提出了一个时空补全网络(Spatio-Temporal Completion network, STCnet)用来精确的恢复遮挡部位的信息。一方面,STCnet利用行人的空间结构信息,从当前行人帧中未被遮挡的身体部位信息预测出被遮挡的身体部位。另一方面,STCnet利用行人序列的时序信息去预测被遮挡部位。通过联合STCnet和一个行人再识别网络,我们获得了一个对部分遮挡鲁棒的视频行人再识别框架。在当前主流的视频行人再识别数据库(iLIDS-VID, MARS, DukeMTMC-VideoReID)上,我们提出的框架都优于当前最好的方法。
2. Interaction-and-Aggregation Network for Person Re-identification (Ruibing Hou, Bingpeng Ma, Hong Chang, Xinqian Gu, Shiguang Shan, Xilin Chen)
由于卷积单元固定的几何结构,传统的卷积神经网络本质上受限于对行人大的姿态和尺度变化建模。我们提出了一个网络结构(Interaction-and-Aggregation, IA)用来增强卷积网络对行人的特征表示能力。首先,空间IA模块通过建模空间特征的关联来整合对应相同身体部位的特征。区别于卷积神经网络从一个固定的矩形区域提取特征,空间IA能够根据输入行人的姿态和尺度自适应的决定感受野。其次,通道IA模块通过建模通道特征的关联进一步增强特征表示。我们在多个数据上验证了我们方法的有效性,并且都超过了目前最好的方法。
3. Deep Robust Subjective Visual Property Prediction in Crowdsourcing(Qianqian Xu, Zhiyong Yang, Yangbangyan Jiang, Xiaochun Cao, Qingming Huang,Yuan Yao)
在图像主观视觉属性的估计问题中,由于问题的高度主观性,使用绝对数值进行打分往往会因标注者对打分标准的不同理解而导致获得的标注差别较大,因此学界转而使用通过网络众包收集的成对比较数据进行研究。然而众包数据中通常含有异常样本,使得估计产生较大偏差。为尽可能消除其影响,我们构建了一个鲁棒的深度主观视觉属性预测模型,根据所有标注建立成对比较多重图,即两个顶点间根据不同标注存在多条不同方向的边,而后通过由主观视觉属性预测、异常样本稀疏建模两个协同工作的模块组成的通用深度概率框架对标注进行学习。该方法具有更好的异常样本检测能力,同时也可从极其稀疏的样本标注中进行学习。在人脸属性、人脸年龄和鞋子属性三个预测任务上的实验均表明,