计算机视觉
linjiet
笔记、分享
展开
-
文本检测(一)
此篇博客记录Scene text detection深度学习相关论文笔记。Ref:Scene Text Detection and Recognition: The Deep Learning EraMethod 1FCN是一种semantic segmentation深度学习方法。特点使用不同的backbone networks进行实验卷积化,将fully connect...原创 2020-07-20 16:14:52 · 1152 阅读 · 0 评论 -
目标检测(一)-R-CNN系列
有关传统机器学习方法和深度学习方法在目标检测领域的一些总结。传统机器学习方法Method1Ref:Rapid Object Detection using a Boosted Cascade of Simple Features.(CVPR2001)这个方法是一个二分类方法,判断是还是不是人脸。主要包括了以下内容:文中提出了一种新的图片表达方式和三种特征,新的图片表达方式是便于...原创 2019-12-03 12:51:18 · 536 阅读 · 0 评论 -
Faster R-CNN实现细节
本篇博客记录Fatser R-CNN的实现过程。Ref部分给的链接的代码是python+c+CUDA混合编程的,本博客不会涉及CUDA的并行,完全基于Python+Pytorch+Numpy。PS:都做人工智能了,CUDA的并行也得学习,大牛的代码都是会考虑性能的,不能还是初级阶段实现功能就行。文章目录算法思想整体架构NMS(Non-Maximum Suppression)非极大值抑制特征层...原创 2019-07-02 17:34:49 · 765 阅读 · 0 评论 -
解释卷积层输出维度计算公式
先定义几个参数输入图片大小 W×WFilter大小 F×F步长 Spadding的像素数 P于是我们可以得出N = (W − F + 2P )/S+1证明:1.在过滤器移动过程中左边缘对应的下标最大为W-F+2P+1,不能够再比这个数大了,因为得保证过滤器能够覆盖F*F的区域。2.如果直接用(W-F+2P+1)/S是不正确的,因为可能尾部的小区间长度可能小于S,但是这个小区间...原创 2019-06-17 02:14:59 · 5883 阅读 · 1 评论 -
Multi-Attention Convolutional Network笔记
此篇文章记录2017年的ICCV一篇关于图像领域的注意力模型(《Learning Multi-Attention Convolutional Neural Network for Fine-Grained Image Recognition》)Approach整个结构由三部分组成,分别是特征提取的卷积层、channel grouping层和part classifier 组成。 提出了两个...原创 2019-05-30 01:18:15 · 2045 阅读 · 11 评论 -
使用可视化的方式解释为什么卷积网络表现如此好
本篇文章记录我阅读Visualizing and Understanding Convolutional Networks论文。目录使用Deconvnet可视化feature mapocclusion 实验correspondence 分析experimentsin a nutshell前言作者对模型(Krizhevsky, A., Sutskever, I., and H...原创 2019-05-09 22:35:56 · 454 阅读 · 0 评论 -
Learning Spatiotemporal Features with 3D Convolutional Networks
AbstractWe introduce a simple and effective approach for spatiotemporal features learning by using deep 3-dimensional convolutional networks(3D ConvNets).3D ConvNets are better than 2D ConvNets.T...原创 2019-04-15 01:33:44 · 412 阅读 · 0 评论 -
DAPs: Deep Action Proposals for Action Understanding
Record my reading of DAPs paper.AbstractThis paper introduces Deep Action Proposals(DAPs) ,an effective and efficient algorithm for generating temporal action proposals from long videos.Authors sh...原创 2019-04-25 23:23:28 · 1199 阅读 · 0 评论 -
李飞飞计算机视觉笔记(5)--神经网络训练细节part2
参数更新算法动量更新(Momentum)复习一下SGD公式Wi=Wi−lr∗gradW_i=W_i-lr*gradWi=Wi−lr∗grad我们在使用SGD时比其他参数更新策略更慢,一般使用中也不会仅仅使用SGD,如下我们使用SGD,等高线表示损失值相同的区域可以这样理解,水平方向表示参数xxx,垂直方向表示参数yyy,损失值是xxx和yyy的函数,中间的损失值最小,这是我们的目标,...原创 2019-03-10 17:50:49 · 1303 阅读 · 0 评论 -
李飞飞计算机视觉笔记(3)--反向传播与神经网络初步
当前梯度值:上一层传入当前层的梯度值两层神经网络:除开输入层总共为2层的神经网络单层隐藏层的神经网络:与两层神经网络结构一致,我们描述神经网络的层数是通过有多少层的权值来定的,所以输入层不计入层数里面。梯度计算前一篇文章说了梯度计算有两种方法,一种数值方法,直接简单但速度慢,第二种就是解析方法,通过微积分进行计算,计算速度快,但有时候的结果是错误的,所以一般会进行梯度检查的操作。我们一...原创 2019-02-13 00:05:29 · 989 阅读 · 0 评论 -
李飞飞计算机视觉笔记(4)--神经网络训练细节part1
这里说明一下,因为这个视频是2016年的,可能现在有些东西已经变化。是否我们应该需要大量的数据集对模型进行训练?这种认识是错误的,我们一般很少直接对卷积神经网络进行训练,通常会先在大数据集如ImageNet中进行预训练,然后将训练好的卷积神经网络提取出来,去除分类层即softmax层,然后加一层新的分类层,在我们自己的数据集上进行训练。如果我们的数据集很小,那么我们可以只训练softmax...原创 2019-02-22 21:22:53 · 3732 阅读 · 0 评论 -
李飞飞计算机视觉笔记(2)--线性分类器损失函数与最优化
多类SVM损失(Multiclass SVM loss)这里偷个懒,SVM损失对应的公式如下图(图片来自李飞飞计算机视觉课件):公式中的下标jjj表示不正确类别,yiy_{i}yi表示正确类别,sss对应是得分向量,而sjs_{j}sj和syis_{y_i}syi分别表达不正确类别的得分和正确类别的得分。LiL_iLi的含义是对于第iii张图片来说预测的损失值,他等于不正确类别的得...原创 2019-02-08 22:40:33 · 879 阅读 · 0 评论 -
李飞飞计算机视觉笔记(1)--数据驱动的图像分类方式:K最近邻与线性分类器
此系列博客记录自己学习李飞飞计算机视觉课程,不断更新中。图片分类图片分类是计算机视觉中最核心的任务,将图片转换为一个巨大的表单(多维数组),然后给这个表单打一个标签。学会了图片分类你就可以轻松解决物体检测、图像场景分类等。原始的很多方法是显示编程,基于物体的某个特征进行分类不具有通用性,换一个物体又要重写设定分类规则。数据驱动的方法效果更好。运用机器学习技术通过“学习”数据,得到的最终模型...原创 2019-01-23 00:24:26 · 847 阅读 · 0 评论