论文阅读
文章平均质量分 65
Layumi1993
计算机视觉菜鸟
展开
-
读Self-supervised Single-view 3D Reconstruction via Semantic Consistency
论文名:Self-supervised Single-view 3D Reconstruction via Semantic Consistency作者:Xueting Li, Sifei Liu, Kihwan Kim, Shalini De Mello, Varun Jampani, Ming-Hsuan Yang, and Jan KautzWhat从 2D 图像 和 mask 中 预测 3D mesh shap, texture 和 camera pose的 工作。不需要3D的标注 或者原创 2021-10-10 22:12:00 · 432 阅读 · 0 评论 -
读SMR 三维重构
文章题目:Self-Supervised 3D Mesh Reconstruction from Single Images链接:https://openaccess.thecvf.com/content/CVPR2021/papers/Hu_Self-Supervised_3D_Mesh_Reconstruction_From_Single_Images_CVPR_2021_paper.pdf作者:Tao Hu, Liwei Wang, Xiaogang Xu, Shu Liu, Jiaya Jia原创 2021-10-09 14:07:39 · 476 阅读 · 0 评论 -
Person Search中关于特征Norm的讨论
论文题目:Norm-Aware Embedding for Efficient Person Search论文链接:http://openaccess.thecvf.com/content_CVPR_2020/papers/Chen_Norm-Aware_Embedding_for_Efficient_Person_Search_CVPR_2020_paper.pdf代码:https://github.com/DeanChan/NAE4PS这篇是DiChen,shanshan zhang 老师,原创 2020-06-19 08:48:31 · 977 阅读 · 0 评论 -
阅读小结:A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection
arXiv: https://arxiv.org/pdf/1704.03414.pdfWhat:1. 目标是去增强 检测器对于遮挡和形变 的泛化能力 2. 但是数据集中一般 遮挡和形变 的图像较少 3. 所以作者提出了 adversary的方法去增加 训练难度4. 整个网络是 基于 Fast-RCNN 而不是 Faster-RCNNHow:原创 2017-06-16 20:35:53 · 1566 阅读 · 0 评论 -
阅读小结:Unsupervised Learning of Visual Representations using Videos
paper link: http://www.cv-foundation.org/openaccess/content_iccv_2015/html/Wang_Unsupervised_Learning_of_ICCV_2015_paper.html 发表于2015ICCVWhat: 1. 使用视频中的物体去训练网络。比如:可以作为一个pretrain的结果应用到其他分类任务上。 2. 没有使原创 2017-06-10 19:20:21 · 1684 阅读 · 0 评论 -
Convolutional Pose Machines 阅读小结
Title: Convolutional Pose MachinesAuthors: Shih-En Wei, Varun Ramakrishna, Takeo Kanade, Yaser SheikhLink: https://arxiv.org/abs/1602.00134Github: https://github.com/CMU-Perceptual-Computi原创 2016-07-07 22:20:40 · 6817 阅读 · 6 评论 -
【行人重识别】A Discriminatively Learned CNN Embedding for Person Re-identification
A Discriminatively Learned CNN Embedding for Person Re-identification 这篇paper主要提出的是一种 行人重识别 的方法。1. verification label 为0,1二值。如果输入的两张图片为同一人,则为1,否则为0。显然,这个label较弱,由于它没有利用上整的数据集的标注信息(每次只考虑了两个或三个样本之间label的关系,如contrastive loss 和 triplet loss)。原创 2016-12-11 00:07:57 · 6594 阅读 · 4 评论 -
阅读小结An Improved Deep Learning Architecture for Person Re-Identification
Author: Ejaz Ahmed,Michael Jones and Tim K. Marks http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Ahmed_An_Improved_Deep_2015_CVPR_paper.pdfMotivation:利用神经网络同时提取特征和相似矩阵学习来原创 2016-07-09 19:28:12 · 2773 阅读 · 9 评论 -
行人再识别 + 行人对齐
文章链接:[1707.00408] Pedestrian Alignment Network for Large-scale Person Re-identification 代码链接:layumi/Pedestrian_Alignment1.Motivation 近年来,对行人再识别(person re-ID)问题的研究也越来越多了。类比于自然语言处理(nlp)的话,大家或者集中于语义层面的设原创 2017-11-16 20:40:14 · 5711 阅读 · 1 评论 -
阅读小结:Deep Hashing Network for Efficient Similarity Retrieval
作者:Han Zhu, Mingsheng Long, Jianmin Wang and Yue Cao 论文地址:https://pdfs.semanticscholar.org/eb0c/64244dcf238a2cbf479ab2fdc9047fc80bc5.pdfWhat: 1.特征没有和量化一起优化,所以特征不一定兼容后续的量化操作。 量化损失也没有统计上的最小。2.提出了Deep原创 2017-12-23 12:13:04 · 2540 阅读 · 0 评论 -
NVIDIA开源DG-Net:用GAN做“淘宝式”换衣,辅助行人重识别
今天要介绍的论文是NVIDIA,UTS,ANU在CVPR19上的Oral文章, Joint Discriminative and Generative Learning for Person Re-identification.本文生成了高质量的行人图像,将其与行人重识别模型融合,来达到高质量行人生成图像辅助行人重识别训练,提升行人重识别精度的目标。论文链接:https://arxiv.org...原创 2019-05-16 09:56:30 · 2893 阅读 · 0 评论 -
图文互搜:用CNN分100,000类图像和文本
[Title]:Dual-Path Convolutional Image-Text Embedding[arXiv]:http://cn.arxiv.org/abs/1711.05535[Code]:layumi/Image-Text-Embedding[Motivation]:在这篇文章中我们尝试了 用CNN分类113,287类图像(MSCOCO)。 实际上我们将每...原创 2019-06-09 09:29:43 · 997 阅读 · 0 评论 -
源代码来了 | 英伟达开源行人生成/重识别代码
前几天英伟达开源了DG-Net的源码。让我们来回顾一下这篇CVPR19 Oral的论文。论文是英伟达(NVIDIA), 悉尼科技大学(UTS), 澳大利亚国立大学(ANU)的研究人员 在CVPR19上口头报告的文章《 Joint Discriminative and Generative Learning for Person Re-identification》。 深度学习模型训练时往往需要...原创 2019-07-05 09:46:02 · 2381 阅读 · 4 评论 -
阅读小结:InfoGAN:Interpretable Representation Learning by Information Maximising Generative Adversarial
之前GAN中都没有加入分类信息,都是耍流氓啊。用原始maxD的时候,G学到的容易收敛到一个固定图像。而用feature matching的话,相同向量可能每次match的都不同,这怎么regression啊,摔 (也可能我是用姿势不对,但有多类的feature matching不靠谱啊)What:1.通常GAN把一个随机噪声向量z生成为一张图像。z可能从一个 0到1的随机采样原创 2016-09-08 19:56:11 · 5156 阅读 · 7 评论 -
阅读A Discriminative Feature Learning Approach for Deep Face Recognition
What:对于分类任务来说,最后预测的是一个联合概率。打个比方:[1,0,0,1],[0,1,1,0]我可以预测为同一类。只要用[1,0,1,0]的filter。卷积和都是1,没毛病。但是我们发现一个问题。这两个虽然是同一类,但是特征完全不同。也就是说,如果我们拿CNN中间的特征出来,也可能发现这种乌龙事件。虽然分类效果很好,但是中间层的特征并不是按我们预想的那样分布的。为了解决这个问题,常见的方案是 contrastive loss 和 triplet loss。作者则提出了一个center原创 2016-11-21 20:52:11 · 2330 阅读 · 3 评论 -
阅读小结Deep Metric Learning via Lifted Structured Feature Embedding
What:这是一篇讲图像retrieval的工作。也就是通过一张图片去搜索相关图片。比较直观的问题在于图像的传统问题-类内差异 (比如同一物体在不同pose下的照片) -类间相似(比如不同物体在同一pose下的照片)然后比较diao的地方是,zero-shot learning没有学习过,直接test(和以前我们常用的vgg模型提取特征的感觉一样)Motivation:原创 2016-07-10 22:31:16 · 4288 阅读 · 4 评论 -
CMS-RCNN阅读小结
阅读前疑问:1.FasterRCNN的RPN 本来就是multi-scale的,印象中有27种,这篇文章针对人脸检测有什么改进么?2.contextual是怎么结合附近信息?驱动:1.小的人脸使用rcnn难以检测原始RCNN 一方面reception field大,所以小的脸占的比例就小,混入的背景信息就多了;另一方面,小的脸几次stride2以后到conv5太小了。原创 2016-07-08 16:35:54 · 3075 阅读 · 0 评论 -
阅读小结:Stacked Hourglass Networks for Human Pose Estimation
arXiv: https://arxiv.org/pdf/1603.06937v2.pdfgithub: https://github.com/anewell/pose-hg-trainWhat:人体关键点预测,输入人体图像输出几个关键点。使用了反复迭代bottom down/ top down 这个策略在人脸landmark 甚至更早像ASM就有,反复迭代来更精原创 2016-09-07 14:34:53 · 8331 阅读 · 5 评论 -
阅读小结:Improved Techniques for training GANS
github地址:https://github.com/openai/improved-gan/What:提出了对于GANs新的结构和训练过程。主要focus在两个应用:半监督学习 和 更好的图像产生。对于G,不要求一个和test data和像的模型,也不要求不使用label。实验中,D在半监督分类任务上达到了state-of-art的结果。G在MNIST样本人已经无原创 2016-09-02 13:40:27 · 9308 阅读 · 10 评论 -
阅读小结:Generative Adversarial Nets
这是Ian Goodfellow大神的2014年的paper,最近很火,一直没看,留的坑。中文应该叫做对抗网络What:同时驯良两个模型:一个生成模型G(获得数据分布),一个区分模型D(预测输入是真实的,还是G中产生的)G的训练目标就是最大化D犯错误的可能,这样G这个生成模型就越厉害。这个框架很像两个人在玩游戏。整个系统里只用了bp,没有马尔可夫链或者其他推理的神经原创 2016-08-26 15:03:44 · 7352 阅读 · 0 评论 -
阅读小结:Correlational Neural Networks
What:auto encoder的升级版 显式的 最大化当投影到同一空间时views之间的联系 (这里的view指的是图像,声音这种不同的输入源)比如视频分类任务中就想把声音结合进去。Formally Define这个任务是:我们有一组数据Z,每个Z是由特征X,和特征Y concat起来的 (比如X来自视频的图像,Y来自视频的音频)1.首先 h1(X) 和 h原创 2016-08-18 14:45:55 · 1038 阅读 · 0 评论 -
阅读小结: Artist style transfer for videos
这篇paper存了好久,一直没有看。今天补了What:看了这个youtube视频就可以感受到了。视频上做Artist Style十分酷炫!https://www.youtube.com/watch?v=Khuj4ASldmU看前的问题:我自己写过单帧的Artist Style (https://github.com/layumi/2016_Artist_St原创 2016-08-25 11:37:51 · 2100 阅读 · 0 评论 -
阅读小结:Google's Neural Machine Translation System
自然语言处理中很多思想对cv也有用,所以决定看这篇paper。然后我会从几篇前置的paper看起。讲CharCNN的文章: https://zhuanlan.zhihu.com/p/21242454讲为什么Char好的文章:http://colinmorris.github.io/blog/1b-words-char-embeddings (有一些聚类的例子)1原创 2016-10-01 18:18:01 · 2500 阅读 · 0 评论 -
阅读小结:Fine-Grained Recognition with Automatic and Efficient Part Attention
这是一篇baidu research的paper。主题为细力度分类。这个问题在于找到一些关键的细节。比如在鸟类数据集CUB上,专家往往也是通过鸟的尾巴,或者头部来对鸟类分类的。What:预测细力度分类的CNN+MDP的网络。1. 融合了三个元素: 特征提取,attetion 和细力度分类。(之前paper是把attetion part额外切割出来的。比如鸟的头部专门trai原创 2016-12-11 17:12:56 · 1629 阅读 · 2 评论 -
阅读小结:Unsupervised Representation with Deep Convolutional Generative Adversarial Networks
WhatCNN应用于无监督学习。将这种CNN称为DCGANs1.提出和评估了DCGANs 有一些结构上的限制,让他可以stable的去训练。2.利用图像分类任务训练的discriminator,证明了他们有无监督学习的潜力。(这是迁移学习?)证明了他们的adversarial pair学习到了一个 hierarchy of representations 从物体的部分到整个场景原创 2016-08-27 22:38:32 · 2835 阅读 · 2 评论 -
阅读小结:The Unreasonable Effectiveness of Noisy Data for Fine-Grained Recognition
The Unreasonable Effectiveness of Noisy Data for Fine-Grained Recognitionpaper link: http://cn.arxiv.org/pdf/1511.06789.pdfWhat:同上一篇一样,这也是一篇关于细力度分类的paper。通过加数据来做fine grain(这是以前大家不太想的。因为f原创 2016-12-12 15:42:55 · 1773 阅读 · 0 评论 -
阅读小结Improving Person Re-identification via Pose-aware Multi-shot Matching
Authors:Yeong-Jun Cho and Kuk-Jin Yoon What:Person Reid 识别多个摄像头下的行人是否为同一人Motion:由于camera viewpoint 和 person pose带来的外形巨大改变,故提出了 Pose-aware Multi-shot Matching (PaMM) 分析这两种问题(由于多个摄像头的设置原创 2016-07-09 01:07:31 · 2326 阅读 · 1 评论