计算机视觉_Elaine_Bao的博客-CSDN博客

计算机视觉

关注

文章平均质量分 88

记录一些和计算机视觉算法/应用相关的内容

关注数：文章数：47 文章阅读量：501178 文章收藏量：1069

作者: Elaine_Bao

这个作者很懒，什么都没留下…

展开

【science封面文章】Human-level concept learning through probabilistic program induction

《通过概率规划归纳进行human-level的概念学习》，Science封面文章这篇文章最近非常火，就连多伦多大学和谷歌的人工智能先驱Geoffrey Hinton都说这个研究「令人印象非常深刻」。这篇文章针对的是one-shot learning，即小数据集下计算机学习的问题。

原创 2016-01-03 22:44:09 · 9208 阅读 · 16 评论
计算机视觉公司整理

这篇文章是由David Lowe总结的计算机视觉工业界的一些公司的名单。David Lowe这个人大家应该都听过他的名字，他是SIFT算法的创始人，之前在google担任高级研究员，现任职英属哥伦比亚大学计算机科学系教授和计算智能实验室。他的研究方向主要是计算机视觉，目标识别，人类视觉的计算模型。

翻译 2016-02-13 21:08:24 · 5479 阅读 · 0 评论
【GAN的魔法】生成对抗网络技术进展及论文笔记1

人都是有创造性思维的，GAN（生成对抗网络，Generative Adversarial Networks）也可以。（好可怕~~~~）深度学习大牛 Yan Lecun对它赞不绝口，称其为“10 年来机器学习领域最酷的想法”。本文将从GAN相关的几篇重要论文展开，关注其技术进展。

原创 2017-03-05 19:21:25 · 1655 阅读 · 0 评论
【GAN的魔法】生成对抗网络技术进展及论文笔记3

DCGAN的应用DCGAN则是将GAN和深度卷积网络结合起来的应用，这篇文章的提出看似没有很大创新，但是提出了很多工程经验分享，以及针对CNN网络应用于GAN的设计。

原创 2017-03-05 21:16:20 · 1827 阅读 · 0 评论
【每个人都是梵高】A Neural Algorithm of Artistic Style

文章地址：A Neural Algorithm of Artistic Style 代码：https://github.com/jcjohnson/neural-style这篇文章我觉得可以起个浪漫的名字——每个人都是梵高。主要做的一件事情很有意思，就是如下图的等式，通过将a图的style和p图的content进行融合，得到第三幅图x。style+content=styled content

原创 2016-01-12 11:28:55 · 17919 阅读 · 21 评论
【GAN的魔法】生成对抗网络技术进展及论文笔记2

第一部分在这里：【GAN的魔法】生成对抗网络技术进展及论文笔记13. CGAN的应用CGAN，即Conditional GAN，是加了条件项的GAN。之前说到GAN不稳定，那么一个想法就是给GAN加一些束缚是不是可以让它变得稳定些。那么它的目标函数和GAN稍稍有点不一样，在生成模型D和判别模型G的建模过程中加入条件变量y，这里的y可以是类别啊，或者是一些属性等等：比如文献2这篇文章就以人脸的

原创 2017-03-05 20:36:27 · 1701 阅读 · 0 评论
【dlib代码解读】人脸关键点检测器的训练

1. 源代码先给出测试的结果，关键点并不是特别准，原因是训练样本数据量太少。以下给出完整的人脸关键点检测器训练代码。详细的代码解读请看第二部分。/* faceLandmarksTrain.cppfunction:借助dlib训练自己的人脸关键点检测器(参考dlib/examples/train_shape_predictor_ex)date:2016/11/6author:Elaine

原创 2016-11-06 16:01:23 · 21794 阅读 · 15 评论
【dlib代码解读】人脸检测器的训练

基于dlib训练自己的人脸检测器

原创 2016-11-05 20:22:32 · 22704 阅读 · 11 评论
【Stanford CNN课程笔记】1. Image Classification and Nearest Neighbor Classifier

本课程笔记是基于今年斯坦福大学Feifei Li, Andrej Karpathy & Justin Johnson联合开设的Convolutional Neural Networks for Visual Recognition课程的学习笔记。目前课程还在更新中，此学习笔记也会尽量根据课程的进度来更新。今天的话题是：对图像分类问题和最近邻分类器的简介。

原创 2016-01-13 16:07:31 · 4330 阅读 · 0 评论
【Stanford CNN课程笔记】6.神经网络的数据预处理

今天我们来讲一讲神经网络的数据预处理。1. 数据预处理数据预处理的方法通常有三种，假设数据矩阵X是一个N*D维的矩阵，N表示样本数目，D表示数据的维度。0均值是最常用的预处理方法，就是把数据的每一维-每一维的均值，这样数据就变成0均值的了。在numpy中，这个操作可以写成：X -= np.mean(X, axis = 0)。对于图片来讲，我们可以更简单地对所有pixel减去同一个均值（如 X -

原创 2016-03-14 21:04:48 · 16053 阅读 · 3 评论
【Stanford CNN课程笔记】4. 反向传播算法

本课程笔记是基于今年斯坦福大学Feifei Li, Andrej Karpathy & Justin Johnson联合开设的Convolutional Neural Networks for Visual Recognition课程的学习笔记。目前课程还在更新中，此学习笔记也会尽量根据课程的进度来更新。在这一章中，我们将介绍backpropagation,也就是反向传播算法。

原创 2016-02-15 13:01:51 · 6074 阅读 · 0 评论
【Stanford CNN课程笔记】3. 梯度下降法

本课程笔记是基于今年斯坦福大学Feifei Li, Andrej Karpathy & Justin Johnson联合开设的Convolutional Neural Networks for Visual Recognition课程的学习笔记。今天的话题是梯度下降算法。

原创 2016-02-05 19:20:18 · 7817 阅读 · 4 评论
【Stanford CNN课程笔记】5. 神经网络解读1 几种常见的激活函数

本课程笔记是基于今年斯坦福大学Feifei Li, Andrej Karpathy & Justin Johnson联合开设的Convolutional Neural Networks for Visual Recognition课程的学习笔记。目前课程还在更新中，此学习笔记也会尽量根据课程的进度来更新。今天终于可以开始讲神经网络啦~~

原创 2016-03-05 20:40:34 · 31821 阅读 · 5 评论
【Stanford CNN课程笔记】2. linear classification

本课程笔记是基于今年斯坦福大学Feifei Li, Andrej Karpathy & Justin Johnson联合开设的Convolutional Neural Networks for Visual Recognition课程的学习笔记。目前课程还在更新中，此学习笔记也会尽量根据课程的进度来更新。今天的话题是：线性分类。

原创 2016-01-14 20:05:42 · 3367 阅读 · 0 评论
【论文笔记】视频分类与图网络的结合 Videos as Space-Time Region Graphs

Paper: https://arxiv.org/abs/1806.01810 (ECCV 2018)Author: Xiaolong Wang, Abhinav Gupta (CMU)0. 引言GNN最近在深度学习领域受到了广泛关注，其具有解决深度学习无法解决的因果推理和可解释性的问题，可以说是一个比较有前景的方向。今天来分享一篇ECCV2018的paper，结合图网络来做视频分类。视频和...

原创 2018-12-26 20:40:04 · 3414 阅读 · 0 评论
【论文笔记】视频分类系列 Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video (OFF)

Paper: Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition (CVPR2018, SenseTime)0. 简述运动信息对于视频中动作的识别有着重要的作用。其中最常用的一种运动信息，是光流。之前的方法计算光流是offline的，比较耗时，...

原创 2018-06-24 21:44:45 · 3194 阅读 · 0 评论
【论文笔记】物体检测系列 SSD: Single Shot MultiBox Detector

一句话概述：SSD是One-stage的物体检测器，它是直接预测每个default box（在RCNN中称为anchor）是各物体类别的概率，并做回归。另外，SSD使用不同层的feature map来handle不同大小的物体。

原创 2017-12-17 11:17:29 · 1935 阅读 · 0 评论
【论文笔记】视频分类系列 Temproal Segment Networks (TSN)

论文：https://arxiv.org/abs/1608.00859 代码：https://github.com/yjxiong/temporal-segment-networks1. 引言在视频分类中，对长时间域的建模有利于掌握整个视频的类别。而ConvNets擅长的是对appearance的建模和短时的motion。因此对于长时域结构的建模，CUHK提出了TSN。

原创 2018-03-04 22:16:29 · 4640 阅读 · 1 评论
【论文笔记】物体检测与分割系列 Deformable Convolution Network

卷积神经网络因为卷积核的几何形状是固定的，对几何变换的模拟能力受限。因此，本文中作者引入了两个新的module，来增强网络对于几何变换的建模能力，分别是deformable convolution和deformable roipooling. 基本的思想就是用带偏移的采样代替原来的固定位置采样，而且这个偏移量是可以通过学习得到，并不需要额外的监督。因为是对网络内部结构进行了改进。因此新的module可以应用在很多vision tasks上，本文拿segmentation和detection进行举例。

转载 2017-06-18 23:25:26 · 2040 阅读 · 0 评论
【论文笔记】CVPR2015 级联卷积神经网络用于人脸检测

本文介绍的人脸检测方法，来源于2015CVPR《A Convolutional Neural Network Cascade for Face Detection》。本篇文章的方法可以说是对经典的Viola jones方法的深度卷积网络实现，主要亮点在于：通过级联的方法提高人脸检测的效率，将回归问题用分类问题求解校正人脸检测窗口的位置。

转载 2015-12-21 10:59:51 · 6590 阅读 · 0 评论
【论文笔记】视频分类系列 Recognize Actions by Disentangling Components of Dynamics

Paper：http://openaccess.thecvf.com/content_cvpr_2018/papers/Zhao_Recognize_Actions_by_CVPR_2018_paper.pdf Anthor: Yue Zhao, Yuanjun Xiong, and Dahua Lin (SenseTime, CUHK, Amazon Rekognition)这是商汤在20...

原创 2018-06-25 23:03:30 · 1324 阅读 · 2 评论
【论文笔记】DeepID人脸识别算法之三代

本文转载自：http://blog.csdn.net/stdcoutzyx/article/details/42091205DeepID人脸识别算法，已经三代。如今，深度学习方兴未艾，大数据风起云涌，各个领域都在处于使用深度学习进行强突破的阶段，人脸识别也不例外，香港中文大学的团队使用卷积神经网络学习特征，将之用于人脸识别的子领域人脸验证方面，取得了不错的效果。虽然是今年7月份才出的成果，

转载 2015-11-19 22:59:50 · 2225 阅读 · 0 评论
【论文笔记】Beyond frontal faces: improving person recognition using multiple cues

来自UC Berkeley & Facebook AI Research在CVPR2015上发表的文章。这篇文章的亮点在于所建的“人体”识别数据库是一个真正意义上的unconstrained setting，并且通过结合肢体的poselet，能够很好地识别人物的身份，而不是仅限于对人脸的识别。1. PIPA unconstrained数据库的建立motivation如下图，从我们人眼来说，可以通

原创 2015-11-20 11:57:25 · 1992 阅读 · 7 评论
【论文笔记】FaceNet--Google的人脸识别

FaceNet与其他的深度学习方法在人脸上的应用不同，它并没有用传统的softmax的方式去进行分类学习，然后抽取其中某一层作为特征，而是直接进行端对端学习一个从图像到欧式空间的编码方法，然后基于这个编码再做人脸识别、人脸验证和人脸聚类等。FaceNet算法有如下要点：1.去掉了最后的softmax，而是用元组计算距离的方式来进行模型的训练。使用这种方式学到的图像表示非常紧致，使用128位足矣。2.元组的选择非常重要，选的好可以很快的收敛。

转载 2015-11-18 15:03:00 · 4136 阅读 · 7 评论
BatchNormalization 代码实现

BatchNormalization是神经网络中常用的参数初始化的方法。其算法流程图如下... 我们可以把这个流程图以门电路的形式展开，方便进行前向传播和后向传播...

原创 2016-03-18 14:24:48 · 8460 阅读 · 1 评论
【论文笔记】(CVPR2016 Oral) Training Region-based Object Detectors with Online Hard Example Mining

基于Fast R-CNN框架做Online Boostrapping，在AlexNet和VGG Net的baseline上都提高了3个点左右。

转载 2016-04-18 18:14:20 · 5170 阅读 · 0 评论
【论文笔记】光流在视频行为识别中的作用

Paper：On the Integration of Optical Flow and Action Recognition Author：Facebook，Zhejiang University，MPI for Intelligent Systems，NVIDIA0. 引言在做视频行为识别时，特别是基于two-stream框架时，常常会引入光流图作为双流网络其中一支的输入。这是很...

原创 2018-07-02 23:06:22 · 10524 阅读 · 4 评论
人脸检测中的bounding box regression详解

在人脸检测算法如R-CNN、Fast RCNN中都用到了bounding box回归，回归的目标是使得预测的物体窗口向groundtruth窗口相接近。我一开始没理解如何能回归出一个框来，看完下文就理解了^^下文转载自：Faster RCNN解析下面先介绍R-CNN和Fast R-CNN中所用到的边框回归方法。1.为什么要做Boundin

转载 2017-03-05 17:17:16 · 37470 阅读 · 11 评论
解读Batch Normalization

本文转载自：http://blog.csdn.net/shuzfan/article/details/50723877本次所讲的内容为Batch Normalization，简称BN，来源于《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》，是一篇很好的

转载 2016-03-14 22:22:15 · 43067 阅读 · 1 评论
【论文笔记】Deep Neural Decision Forests

随机森林可以被用作深度学习网络最后一层的分类器，通过前面的系统输出data representation,然后用随机森林作为分类器进行分类。并且，文章提到，通过将传统随机森林的local optimize改造成通过back propagation进行global optimize,随机森林的参数训练可以与前端的深度学习网络进行无缝衔接。

原创 2015-11-17 22:10:34 · 5217 阅读 · 1 评论
【论文笔记】视频分类系列 Temporal Relational Reasoning in Videos （TRN）

Paper：https://arxiv.org/abs/1711.08496v1 Code：https://github.com/metalbubble/TRN-pytorch 作者：Bolei Zhou, Alex Andonian, Antonio Torralba (CSAIL, MIT)简述时间关系推理（Temporal relational reasoning）是指理...

原创 2018-06-20 22:24:36 · 14073 阅读 · 3 评论
【论文笔记】二值化神经网络（Binarized Neural Network）

文章链接：Binarized Neural Networks: Training Deep Neural Networks with Weights and Activations Constrained to +1 or -1 是2016年2月份新出的一篇文章。文章的主要思想是通过二值化weights和activations，来提高NN的速度和减少其内存占用。

原创 2016-03-22 09:45:35 · 17488 阅读 · 1 评论
【论文笔记】Non-local Neural Networks

Paper：https://arxiv.org/abs/1711.07971v1 Author：Xiaolong Wang, Ross Girshick, Abhinav Gupta, Kaiming He (CMU, FAIR)0.简述convolution和recurrent都是对局部区域进行的操作，所以它们是典型的local operations。受计算机视觉中经典的非局部均值...

原创 2018-06-26 21:34:50 · 71450 阅读 · 19 评论
【论文笔记】CNN图像分类Tricks合集

paper：Bag of Tricks for Image Classification with Convolutional Neural Networksauthor： Tong He, Zhi Zhang, Hang Zhang, Zhongyue Zhang, Junyuan Xie, Mu Li （Amazon Web Services）code：https://github.com...

原创 2019-01-09 19:39:08 · 3195 阅读 · 0 评论
【论文笔记】时空域特征学习的反思：视频分类中速度与精度的权衡

论文链接：rethinking spatiotemporal feature learning: speed-accuracy trade-offs in video classificationGoogle Research &amp;amp;amp;amp; University of California San Diego1. 文章想回答的3个问题我们是否真的需要3d conv? 如果需要的话，哪些层我...

原创 2018-10-12 20:06:31 · 4010 阅读 · 2 评论
【论文笔记】监控视频中异常事件检测及异常事件摘要

论文作者林巍峣做的一次关于其发表在2015 neurocomputing 上的论文的讲座。因为是讲座+后期自己稍微看了一下原文，所以在这的介绍只是一个大概，属于科普方法类论文笔记… 论文链接： Summarizing surveillance videos with local-patch-learning-based abnormality detection, blob sequence

原创 2015-11-26 15:45:39 · 5751 阅读 · 3 评论
【论文笔记】CVPR2018 Detecting and Recognizing Human-Object Interactions

Paper：https://arxiv.org/abs/1704.07333 作者：Georgia Gkioxari, Ross Girshick, Piotr Dollár, Kaiming He。从题目中看出这篇文章主要是研究人与物的互动。根据统计，CVPR2018中分析图像中的人类的有100多篇，说明人们开始关注对图像中主体和关系的理解（这也是Graph Network火的原因）。...

原创 2018-06-19 22:39:57 · 2442 阅读 · 2 评论
【论文笔记】物体检测与分割系列 DeepMask

paper： Learning to Segment Object Candidates. FAIR, 2015 NIPS. code：https://github.com/facebookresearch/deepmaskDeepMask是以分割的思想来做检测，这种方式近来很流行，multi-task的效果通常也比较乐观。

原创 2017-06-09 19:32:19 · 6517 阅读 · 0 评论
系列解读Dropout

本文主要介绍Dropout及延伸下来的一些方法，以便更深入的理解。想要提高CNN的表达或分类能力，最直接的方法就是采用更深的网络和更多的神经元，即deeper and wider。但是，复杂的网络也意味着更加容易过拟合。于是就有了Dropout，大部分实验表明其具有一定的防止过拟合的能力。1- Dropout最早的Dropout可以看Hinton的这篇文章《Impro

转载 2016-03-14 22:20:21 · 14083 阅读 · 0 评论
【论文笔记】知识图谱之 TransE算法（Translating Embedding）

最近对知识图谱比较感兴趣，觉得这会是未来整个人工智能领域的发展方向。知识图谱是对人类知识的结构化总结，试想以后所有我们知道的不知道的事情都能通过知识图谱串在一起，形成一个云图书馆。那么知识图谱是如何建立的呢？下面分享一篇文章，来自刘知远老师15年AAAI的文章。文章链接：Yankai Lin, Zhiyuan Liu, Maosong Sun, Yang Liu, Xuan Zhu. Le

转载 2016-07-24 10:12:41 · 34876 阅读 · 7 评论

计算机视觉

作者: Elaine_Bao

【science封面文章】Human-level concept learning through probabilistic program induction

计算机视觉公司整理

【GAN的魔法】生成对抗网络技术进展及论文笔记1

【GAN的魔法】生成对抗网络技术进展及论文笔记3

【每个人都是梵高】A Neural Algorithm of Artistic Style

【GAN的魔法】生成对抗网络技术进展及论文笔记2

【dlib代码解读】人脸关键点检测器的训练

【dlib代码解读】人脸检测器的训练

【Stanford CNN课程笔记】1. Image Classification and Nearest Neighbor Classifier

【Stanford CNN课程笔记】6.神经网络的数据预处理

【Stanford CNN课程笔记】4. 反向传播算法

【Stanford CNN课程笔记】3. 梯度下降法

【Stanford CNN课程笔记】5. 神经网络解读1 几种常见的激活函数

【Stanford CNN课程笔记】2. linear classification

【论文笔记】视频分类与图网络的结合 Videos as Space-Time Region Graphs

【论文笔记】视频分类系列 Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video (OFF)

【论文笔记】物体检测系列 SSD: Single Shot MultiBox Detector

【论文笔记】视频分类系列 Temproal Segment Networks (TSN)

【论文笔记】物体检测与分割系列 Deformable Convolution Network

【论文笔记】CVPR2015 级联卷积神经网络用于人脸检测

【论文笔记】视频分类系列 Recognize Actions by Disentangling Components of Dynamics

【论文笔记】DeepID人脸识别算法之三代

【论文笔记】Beyond frontal faces: improving person recognition using multiple cues

【论文笔记】FaceNet--Google的人脸识别

BatchNormalization 代码实现

【论文笔记】(CVPR2016 Oral) Training Region-based Object Detectors with Online Hard Example Mining

【论文笔记】光流在视频行为识别中的作用

人脸检测中的bounding box regression详解

解读Batch Normalization

【论文笔记】Deep Neural Decision Forests

【论文笔记】视频分类系列 Temporal Relational Reasoning in Videos （TRN）

【论文笔记】二值化神经网络（Binarized Neural Network）

【论文笔记】Non-local Neural Networks

【论文笔记】CNN图像分类Tricks合集

【论文笔记】时空域特征学习的反思：视频分类中速度与精度的权衡

【论文笔记】监控视频中异常事件检测及异常事件摘要

【论文笔记】CVPR2018 Detecting and Recognizing Human-Object Interactions

【论文笔记】物体检测与分割系列 DeepMask

系列解读Dropout

【论文笔记】 知识图谱 之 TransE算法（Translating Embedding）

【论文笔记】知识图谱之 TransE算法（Translating Embedding）