关闭

行人再识别 + 行人对齐

文章链接:[1707.00408] Pedestrian Alignment Network for Large-scale Person Re-identification 代码链接:layumi/Pedestrian_Alignment1.Motivation 近年来,对行人再识别(person re-ID)问题的研究也越来越多了。类比于自然语言处理(nlp)的话,大家或者集中于语义层面的设...
阅读(172) 评论(0)

阅读小结:A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection

arXiv: https://arxiv.org/pdf/1704.03414.pdf What: 1. 目标是去增强  检测器对于遮挡和形变 的泛化能力  2. 但是数据集中一般   遮挡和形变 的图像较少   3. 所以作者提出了 adversary的方法去增加 训练难度 4. 整个网络是 基于 Fast-RCNN 而不是 Faster-RCNN How:...
阅读(486) 评论(0)

阅读小结:Unsupervised Learning of Visual Representations using Videos

paper link: http://www.cv-foundation.org/openaccess/content_iccv_2015/html/Wang_Unsupervised_Learning_of_ICCV_2015_paper.html 发表于2015ICCVWhat: 1. 使用视频中的物体去训练网络。比如:可以作为一个pretrain的结果应用到其他分类任务上。 2. 没有使...
阅读(212) 评论(0)

阅读小结:The Unreasonable Effectiveness of Noisy Data for Fine-Grained Recognition

The Unreasonable Effectiveness of Noisy Data for Fine-Grained Recognition paper link: http://cn.arxiv.org/pdf/1511.06789.pdf What: 同上一篇一样,这也是一篇关于细力度分类的paper。 通过加数据来做fine grain(这是以前大家不太想的。因为f...
阅读(534) 评论(0)

阅读小结:Fine-Grained Recognition with Automatic and Efficient Part Attention

这是一篇baidu research的paper。 主题为细力度分类。这个问题在于找到一些关键的细节。比如在鸟类数据集CUB上,专家往往也是通过鸟的尾巴,或者头部来对鸟类分类的。 What: 预测细力度分类的CNN+MDP的网络。 1. 融合了三个元素: 特征提取,attetion 和细力度分类。(之前paper是把attetion part额外切割出来的。比如鸟的头部专门trai...
阅读(651) 评论(2)

【行人重识别】A Discriminatively Learned CNN Embedding for Person Re-identification

A Discriminatively Learned CNN Embedding for Person Re-identification 这篇paper主要提出的是一种 行人重识别 的方法。 1. verification label 为0,1二值。如果输入的两张图片为同一人,则为1,否则为0。 显然,这个label较弱,由于它没有利用上整的数据集的标注信息(每次只考虑了两个或三个样本之间label的关系,如contrastive loss 和 triplet loss)。...
阅读(2208) 评论(3)

阅读A Discriminative Feature Learning Approach for Deep Face Recognition

What: 对于分类任务来说,最后预测的是一个联合概率。 打个比方:[1,0,0,1],[0,1,1,0]我可以预测为同一类。只要用[1,0,1,0]的filter。卷积和都是1,没毛病。 但是我们发现一个问题。 这两个虽然是同一类,但是特征完全不同。也就是说,如果我们拿CNN中间的特征出来,也可能发现这种乌龙事件。 虽然分类效果很好,但是中间层的特征并不是按我们预想的那样分布的。 为了解决这个问题,常见的方案是 contrastive loss 和 triplet loss。作者则提出了一个center...
阅读(1046) 评论(3)

阅读小结:Google's Neural Machine Translation System

自然语言处理中很多思想对cv也有用,所以决定看这篇paper。 然后我会从几篇前置的paper看起。 讲CharCNN的文章: https://zhuanlan.zhihu.com/p/21242454 讲为什么Char好的文章:http://colinmorris.github.io/blog/1b-words-char-embeddings (有一些聚类的例子) 1...
阅读(988) 评论(0)

阅读小结:InfoGAN:Interpretable Representation Learning by Information Maximising Generative Adversarial

之前GAN中都没有加入分类信息,都是耍流氓啊。用原始maxD的时候,G学到的容易收敛到一个固定图像。 而用feature matching的话,相同向量可能每次match的都不同,这怎么regression啊,摔  (也可能我是用姿势不对,但有多类的feature matching不靠谱啊) What: 1.通常GAN把一个随机噪声向量z生成为一张图像。z可能从一个 0到1的随机采样...
阅读(3627) 评论(6)

阅读小结:Stacked Hourglass Networks for Human Pose Estimation

arXiv: https://arxiv.org/pdf/1603.06937v2.pdf github: https://github.com/anewell/pose-hg-train What: 人体关键点预测,输入人体图像输出几个关键点。 使用了反复迭代bottom down/  top down 这个策略在人脸landmark 甚至更早像ASM就有,反复迭代来更精...
阅读(2869) 评论(0)

阅读小结:Improved Techniques for training GANS

github地址:https://github.com/openai/improved-gan/ What: 提出了对于GANs新的结构和训练过程。主要focus在两个应用:半监督学习 和  更好的图像产生。 对于G,不要求一个和test data和像的模型,也不要求不使用label。 实验中,D在半监督分类任务上达到了state-of-art的结果。 G在MNIST样本人已经无...
阅读(3167) 评论(9)

阅读小结:Unsupervised Representation with Deep Convolutional Generative Adversarial Networks

What CNN应用于无监督学习。将这种CNN称为DCGANs 1.提出和评估了DCGANs 有一些结构上的限制,让他可以stable的去训练。 2.利用图像分类任务训练的discriminator,证明了他们有无监督学习的潜力。(这是迁移学习?) 证明了他们的adversarial pair学习到了一个  hierarchy of representations  从物体的部分到整个场景...
阅读(815) 评论(2)

阅读小结:Generative Adversarial Nets

这是Ian Goodfellow大神的2014年的paper,最近很火,一直没看,留的坑。 中文应该叫做对抗网络 What: 同时驯良两个模型:一个生成模型G(获得数据分布),一个区分模型D(预测输入是真实的,还是G中产生的) G的训练目标就是最大化D犯错误的可能,这样G这个生成模型就越厉害。 这个框架很像两个人在玩游戏。 整个系统里只用了bp,没有马尔可夫链或者其他推理的神经...
阅读(5345) 评论(0)

阅读小结: Artist style transfer for videos

这篇paper存了好久,一直没有看。今天补了 What: 看了这个youtube视频就可以感受到了。视频上做Artist Style十分酷炫! https://www.youtube.com/watch?v=Khuj4ASldmU 看前的问题: 我自己写过单帧的Artist Style (https://github.com/layumi/2016_Artist_St...
阅读(907) 评论(0)

阅读小结:Correlational Neural Networks

What: auto encoder的升级版   显式的 最大化当投影到同一空间时views之间的联系 (这里的view指的是图像,声音这种不同的输入源) 比如视频分类任务中就想把声音结合进去。 Formally Define这个任务是: 我们有一组数据Z,每个Z是由特征X,和特征Y concat起来的  (比如X来自视频的图像,Y来自视频的音频) 1.首先 h1(X) 和 h...
阅读(272) 评论(0)

阅读小结Deep Metric Learning via Lifted Structured Feature Embedding

What: 这是一篇讲图像retrieval的工作。也就是通过一张图片去搜索相关图片。比较直观的问题在于图像的传统问题 -类内差异 (比如同一物体在不同pose下的照片) -类间相似(比如不同物体在同一pose下的照片) 然后比较diao的地方是,zero-shot learning没有学习过,直接test(和以前我们常用的vgg模型提取特征的感觉一样) Motivation:...
阅读(2325) 评论(1)

阅读小结An Improved Deep Learning Architecture for Person Re-Identification

Author: Ejaz Ahmed,Michael Jones and Tim K. Marks  http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Ahmed_An_Improved_Deep_2015_CVPR_paper.pdf Motivation: 利用神经网络同时提取特征和相似矩阵学习来...
阅读(1269) 评论(8)

阅读小结Improving Person Re-identification via Pose-aware Multi-shot Matching

Authors:Yeong-Jun Cho and Kuk-Jin Yoon  What: Person Reid 识别多个摄像头下的行人是否为同一人 Motion: 由于camera viewpoint 和 person pose带来的外形巨大改变,故提出了 Pose-aware Multi-shot Matching (PaMM)  分析这两种问题 (由于多个摄像头的设置...
阅读(1273) 评论(0)

CMS-RCNN阅读小结

阅读前疑问: 1.FasterRCNN的RPN 本来就是multi-scale的,印象中有27种,这篇文章针对人脸检测有什么改进么? 2.contextual是怎么结合附近信息? 驱动: 1.小的人脸使用rcnn难以检测 原始RCNN 一方面reception field大,所以小的脸占的比例就小,混入的背景信息就多了;另一方面,小的脸几次stride2以后到conv5太小了。 ...
阅读(1299) 评论(0)

Convolutional Pose Machines 阅读小结

Title: Convolutional Pose Machines Authors: Shih-En Wei, Varun Ramakrishna, Takeo Kanade, Yaser Sheikh Link: https://arxiv.org/abs/1602.00134 Github: https://github.com/CMU-Perceptual-Computi...
阅读(3029) 评论(2)
    个人资料
    • 访问:59192次
    • 积分:993
    • 等级:
    • 排名:千里之外
    • 原创:32篇
    • 转载:0篇
    • 译文:3篇
    • 评论:40条
    文章分类
    关于我