
计算机视觉
文章平均质量分 74
Wei *
这个作者很懒,什么都没留下…
展开
-
Action Segmentation数据集介绍——Breakfast
早餐动作数据集包括与早餐准备相关的10个动作,由18个不同厨房的52个不同的人执行。该数据集是最大的完全带注释的数据集之一。这些动作是在“自然环境下”记录的,而不是在单一的受控实验室环境中记录的。它由超过77小时(>4万帧)的录像组成。为了减少数据总量,所有视频都被下采样到320×240像素的分辨率,帧速率为15 fps。原创 2023-02-22 17:08:00 · 1765 阅读 · 0 评论 -
视频理解论文串讲——学习笔记
本文是对视频理解领域论文串讲的笔记记录。包括了大部分使用deep learning方法做action recognition的论文。原创 2023-03-08 15:48:31 · 401 阅读 · 0 评论 -
动作识别、检测、分割、解析相关数据集介绍
本文将列举介绍目前在动作识别、动作检测、动作分割等相关领域的常用数据集和各自的特点。原创 2023-02-22 17:18:44 · 5529 阅读 · 0 评论 -
深度学习-【图像分类】学习笔记8 ShuffleNet
group conv占据的时间很少,大部分卷积都被1 × 1的PW Conv占据了。因此将所有的 1 × 1 的Conv都换成了 1 × 1 GConv。保持FLOPs不变,表示 B = hwc1c2是个常数。作者提出了设计高效网络的4条建议——如何搭建 Shuffle Net?比较硬核,建议直接去看原论文。图中的g就是group。原创 2023-06-20 23:54:47 · 808 阅读 · 0 评论 -
深度学习-【语义分割】学习笔记4 膨胀卷积(Dilated convolution)
例如,在VGG网络中,通过max pooling层进行池化,这降低了特征图的高度和宽度,也丢失了一些细节信息,而丢失的信息无法通过上采样进行还原,在语义分割任务中将导致分割的效果不理想。这就是gridding effect现象,即layer4上的一个像素并没有利用到这个范围内所有像素点的信息,而是有间隔的。利用膨胀卷积,既能增大感受野,又能保持输入输出特征图的高和宽不发生变化,解决了上述问题。与实验一不同的是,第一个膨胀卷积的膨胀因子为1,也就是普通卷积。左边是普通卷积,右边是膨胀卷积。原创 2023-03-03 11:04:04 · 1116 阅读 · 2 评论 -
深度学习-【图像分类】学习笔记7 MobileNet
对于PW卷积,卷积核大小F = 1,当padding = 0,stride = 1时,有N = (W - 1 + 0)/ 1 + 1 = W,即尺寸不变。左图中第二行 Conv / s2 对应的3 × 3 × 3 × 32的意思是卷积核的高、宽、chanel和数量。由于 Inverted residual block 两头细,中间粗,因此最后使用线性的激活函数替代ReLU激活函数来避免信息损失。对所有的channel做pool操作,有几个channel,一维向量就有几个元素,接下来再通过两个全连接层。原创 2022-10-24 00:00:00 · 966 阅读 · 0 评论 -
深度学习-【图像分类】学习笔记 6ResNet
对于深层结构的ResNet,使用右边的结构代替左边的对应结构。性能指标:Group Convolution 组卷积卷积核的channel要和输入的channel相同。组卷积的参数个数是普通卷积的 1/g。当g = Cin,n = Cin,此时就是DW Conv(Depthwise conv)。相当于对输入特征矩阵的每一个channel分配了一个channel为1的卷积核进行卷积。实例:(a)先进行 1 × 1 的卷积,再进行相加。(b)原创 2022-10-16 00:00:00 · 758 阅读 · 0 评论 -
深度学习-【图像分类】学习笔记5GoogLeNet网络
红线框住的是辅助分类器,黑线框住的是主分类器。(b)加上了降维的功能。(a)并行,再拼接。原创 2022-10-07 00:00:00 · 522 阅读 · 0 评论 -
深度学习-【图像分类】学习笔记3AlexNet
一个序列容器,用于搭建神经网络的模块被按照被传入构造器的顺序添加到nn.Sequential()容器中。如果想要左1,右2,上1,下2。需要nn.ZeroPad2d((1, 2, 1, 2))。torch.argmax(x, dim),其中x为张量,dim控制比较的维度,返回最大值的索引。:用来调整分类器超参数的样本集,如在神经网络中选择隐藏层神经元的数量。如果是tuple=(1, 2),上下各一列0,左右各两列0。:用来学习的样本集,用于分类器参数的拟合。如果是int=1,上下左右各补一列0。原创 2022-09-22 00:00:00 · 254 阅读 · 1 评论 -
深度学习-【图像分类】学习笔记4VGG网络
即为(in_size - 3 + 2) / 1 + 1,也就是out_size = in_size。,即为(in_size - 2 + 0) / 2 + 1,也就是把尺寸缩小了一半。感受野上, 2个3*3对应5*5,3个3*3对应等效7*7。从上图看出,1×1 对应 2×2 对应 5×5。搭建A,B,D,E。原创 2022-10-04 00:00:00 · 526 阅读 · 0 评论 -
深度学习-【目标检测】学习笔记 COCO数据集介绍及pycocotools简单使用
对于我们自己训练来说,只需要使用训练集和验证集就可以了。(因为一般来说验证集和测试集的分布是一样的)iscrowd参数只有0或1两种情况,一般0代表单个对象,1代表对象集合。x和y是bbox左上角的坐标,w和h对应bbox的宽度和高度。一般只有在大型比赛中才会使用测试集。原创 2022-09-29 00:00:00 · 508 阅读 · 0 评论 -
深度学习-【目标检测】学习笔记0.目标检测前言
分类网络是目标检测的基础,在学习目标检测之前务必掌握好分类网络。目标检测可以分成两类:One Stage和Two Stage。原创 2022-09-29 00:00:00 · 432 阅读 · 2 评论 -
深度学习-【目标检测】学习笔记1.1Faster RCNN理论合集
intermediate layer的256-d对应ZF的256,如果使用VGG16的话会变成512-d。并联两个全连接层:一个用于目标概率预测(分类器),一个用于边界框预测(边界框回归器)。cls layer 中的 2k scores 中的 2 分别对应 前景和背景 的概率。预测的softmax概率为[0.1,0.3,…假设真实标签的one-hot编码是:[0,0,…[u>=1]表示当u>=1时值为1,否则为0。(RPN + Fast R-CNN):3个步骤。4个值:中心点的xy坐标、w和h的缩放因子。原创 2022-09-29 00:00:00 · 524 阅读 · 0 评论 -
深度学习-【图像分类】学习笔记2LeNet
如果不清除历史梯度,就会对计算的历史梯度进行累加(通过这个特性你能够变相实现一个很大batch数值的训练)原创 2022-09-22 00:00:00 · 505 阅读 · 0 评论 -
深度学习-【图像分类】学习笔记1卷积神经网络基础
当加入偏置和激活函数计算时,直接对原始结果进行计算就好了。激活函数:引入非线性因素,使其具备解决非线性问题的能力。学习率下降的太快可能还没收敛就停止训练。这里的P根据实际情况来。所有输出节点概率和为1。——为了使网络更快地收敛。原创 2022-09-22 00:00:00 · 311 阅读 · 0 评论 -
Detectron2入门代码教程——以Faster RCNN在自定义数据集上目标检测为例
Detectron2是FacebookAIResearch的下一代库,提供最先进的检测和分割算法。它是Detectron和maskrcnn-benchmark的继承者。它支持Facebook中的许多计算机视觉研究项目和生产应用。简单来说,Detectron2是一个提供了简单的快速实现Facebook中的许多计算机视觉研究成果的框架。想要看看具体支持哪些成果可以看看他们的ModelZoo,以及github仓库。本文将以搭建完成目标检测Detection为例,数据集使用更加具有泛用性的自定义数据集。......原创 2022-07-18 20:30:12 · 2555 阅读 · 0 评论