计算机视觉
文章平均质量分 71
碎片化学习:我们采用碎片化的学习方式,让读者在繁忙的生活中也能轻松学习。每天只需花费五分钟,就能掌握计算机视觉的最新技术和应用。
实用性强:我们的内容注重实用性,通过介绍实际案例和应用场景,让读者能够更好地理解和应用所学知识。
与时俱进:将紧跟计算机视觉领域的最新研究进展和前沿技术
优惠券已抵扣
余额抵扣
还需支付
¥19.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
幻风_huanfeng
没有梦想和神经网络有什么区别?
展开
-
每天五分钟计算机视觉:Siamese深度神经网络模型和FaceNet的关系
在前面的课程中,我们学习了Siamese深度神经网络模型和FaceNet,二者都可以完成人脸识别任务,本文进行整理学习,理清二者的区别和联系。原创 2024-09-01 21:17:57 · 411 阅读 · 0 评论 -
每天五分钟计算机视觉:搭建人脸识别的Siamese深度神经网络模型
前面的一篇文章中介绍了关于一次学习的问题,解决一次学习问题的关键在于学习到一个函数d,这个d可以计算出两张图片中的人脸是不是同一个人。那么我们需要搭建什么样的神经网络才可以让模型学习出这样的函数d呢?本文我们介绍一下Siamese神经网络结构,它可以帮助我们解决这个问题。原创 2024-08-18 17:49:47 · 306 阅读 · 0 评论 -
每天五分钟计算机视觉:目标检测算法之R-CNN
R-CNN作为一种强大的目标检测算法,通过将目标检测问题分解为候选区域生成和特征提取两个子问题,并利用卷积神经网络提取特征和支持向量机进行分类,取得了显著的性能提升。虽然R-CNN存在一些缺点,但其思想和方法为后续的研究提供了重要的基础。原创 2024-07-10 23:26:04 · 325 阅读 · 0 评论 -
每天五分钟计算机视觉:人体姿势识别
人体姿势识别是计算机视觉领域的一个重要研究方向,旨在通过图像或视频数据自动检测并识别出人体的各种姿势和动作。随着深度学习技术的快速发展,基于神经网络的方法在这一领域取得了显著进展。神经网络,特别是卷积神经网络(CNN)和循环神经网络(RNN),因其强大的特征提取和序列建模能力,成为人体姿势识别的主流方法。原创 2024-06-30 13:11:33 · 724 阅读 · 0 评论 -
每天五分钟计算机视觉:如何在现有经典的卷积神经网络上进行微调
本文详细介绍了如何在别人已经训练好的神经网络上进行微调。通过选择合适的预训练模型、修改网络结构、初始化参数、微调参数等步骤,我们可以使模型适应新的任务和数据集,并获得更好的性能。在实际应用中,我们需要根据目标任务和数据集的特点进行具体分析和调整,以获得最佳的性能表现。原创 2024-06-12 23:03:34 · 768 阅读 · 1 评论 -
每天五分钟计算机视觉:候选区域方法在图像分割的任务中的应用
候选区域方法是一种基于区域的图像处理技术,它通过合并相邻的相似区域来生成一系列候选区域。这些候选区域代表了图像中可能包含目标的区域,为后续的目标识别、目标检测等任务提供了重要的输入。候选区域方法的核心思想是利用图像中的颜色、纹理、形状等特征,通过一定的相似性度量来合并区域,从而生成候选区域。原创 2024-05-20 23:35:29 · 376 阅读 · 0 评论 -
每天五分钟计算机视觉:多目标检测模型的Anchor Box算法详解
我们前面学习了目标检测算法,然而算法是有问题的,也就是分割图片的小格子中只能检测到一个对象,如果要是一个小格中有多个对象的中心点,那么这个就没有办法解决了为了解决这个问题,我们可以使用目标检测中的Anchor Box算法,它可以完成这种任务。目标检测中的Anchor Box算法在近年来得到了广泛的应用,尤其在深度学习领域的目标检测任务中,它发挥了至关重要的作用。原创 2024-05-16 22:40:58 · 228 阅读 · 0 评论 -
每天五分钟计算机视觉:使用极大值抑制来寻找最优的目标检测对象
在目标检测领域,当模型预测出多个候选框(bounding boxes)时,我们需要一种方法来确定哪些候选框最有可能表示真实的目标。由于模型的不完美性和图像中目标的重叠性,往往会有多个候选框对应于同一个目标。此时,极大值抑制(Non-Maximum Suppression,NMS)技术就显得尤为重要。原创 2024-05-10 00:04:29 · 754 阅读 · 1 评论 -
每天五分钟计算机视觉:通过交并比判断对象检测算法的性能
在对象检测任务中,IoU 扮演着至关重要的角色。它不仅是评估算法性能的关键指标,还是训练过程中损失函数的重要组成部分。通过优化 IoU 值,我们可以提高算法的检测精度和鲁棒性。原创 2024-05-07 23:02:35 · 537 阅读 · 2 评论 -
每天五分钟计算机视觉:基于YOLO算法精确分类定位图片中的对象
现在要训练一个输入为 100×100×3,输出为 3×3×8的卷积神经网络。当你用反向传播训练神经网络后,将任意输入映射到这类输出向量。这个算法的优点在于神经网络可以输出精确的边界框。原创 2024-04-23 23:35:41 · 1114 阅读 · 2 评论 -
每天五分钟计算机视觉:基于卷积操作完成滑动窗口的图片分类?
当我们有这样的一个卷积神经网络的时候,这样的卷积神经网络就可以认为是14*14的滑动窗口,这样的滑动窗口可以滑动任意大小的图片,最终的输出一定是w*h*4,w,h由原始图片的大小决定,而4表示最后卷积神经网络使用了4个通道,也就是4分类问题。原创 2024-04-17 22:36:52 · 473 阅读 · 0 评论 -
每天五分钟计算机视觉:如何基于滑动窗口技术完成目标的检测?
现在我们想要构建一个汽车检测算法,我们希望输入到算法中一张图片,算法就可以帮助我们检测出这张图片中是否有汽车。原创 2024-03-29 20:49:31 · 732 阅读 · 0 评论 -
每天五分钟计算机视觉:使用神经网络完成人脸的特征点检测
我们上一节课程中学习了如何利用神经网络对图片中的对象进行定位,也就是通过输出四个参数值bx、by、bℎ和bw给出图片中对象的边界框。本节课程我们学习,神经网络可以通过输出图片中对象的特征点的(x,y)坐标来实现对目标特征的识别,。原创 2024-03-29 20:47:12 · 1913 阅读 · 0 评论 -
每天五分钟计算机视觉:如何构造分类定位任务的算法模型?
本节课程我们将学习分类定位的问题,也就是说不仅要完成图片分类任务,然后还要完成定位任务。如下所示,我们不仅要用算法判断图片中是不是一辆车,还要在图片中标记出它的位置,用边框对象圈起来,这就是。一般可能会有一张图片对应多个对象,本节课我们假设所有的图片最多只对应一个对象。原创 2024-03-13 23:11:55 · 887 阅读 · 1 评论 -
每天五分钟计算机视觉:图像数据不足带来的问题和解决办法
在当今的数字时代,图像数据的应用已经渗透到各个领域,包括但不限于计算机视觉、机器学习、自动驾驶、医疗诊断等。然而,当图像数据不足时,会引发一系列问题,对相关应用产生负面影响。尤其是计算机视觉领域,图像数据尤为珍贵和稀缺,如果计算机视觉的任务中,如果缺少数据的时候,有哪些办法可以处理呢?本文将探讨图像数据不足带来的问题,以及解决这些问题的可能方法。原创 2024-03-13 22:29:53 · 528 阅读 · 0 评论 -
每天五分钟计算机视觉:掌握迁移学习使用技巧
随着深度学习的发展,迁移学习已成为一种流行的机器学习方法,它能够将预训练模型应用于各种任务,从而实现快速模型训练和优化。然而,要想充分利用迁移学习的优势,我们需要掌握一些关键技巧。本文将介绍这些技巧,帮助您更好地应用迁移学习技术。原创 2024-01-22 23:00:11 · 915 阅读 · 0 评论 -
每天五分钟计算机视觉:揭秘迁移学习
随着人工智能的迅速发展,深度学习已经成为了许多领域的关键技术。然而,深度学习模型的训练需要大量的标注数据,这在很多情况下是不现实的。迁移学习作为一种有效的方法,可以在已有的数据和模型上进行训练,然后将其应用于新的任务。这种方法大大降低了对新任务的数据需求,提高了模型的泛化能力。本文将详细介绍迁移学习的原理、应用和未来发展。原创 2024-01-03 22:38:27 · 1043 阅读 · 0 评论 -
每天五分钟计算机视觉:网络中的网络(NiN)
前面的课程中我们学习了众多的经典网络模型,比如LeNet、AlexNet、VGG等等,这些网络模型都有共同的特点。它们的特点是:先由卷积层构成的模块充分提取空间特征,然后再由全连接层构成的模块来输出分类结果。也就是说它们都是下面的这种效果,先卷积后全连接:它们的不同在于对卷积层中卷积核的大小以及卷积层的层数进行了改变,其它的变化不大。而本文我们将学习另外一个思想的卷积神经网络,这个卷积神经网络就是NiN,它的思想是:串联多个由卷积层核全连接层构成的小网络来构成一个深层网络。原创 2023-12-17 23:37:59 · 748 阅读 · 0 评论 -
每天五分钟计算机视觉:谷歌的Inception模块的计算成本的问题
我们输出28*28*32个数字,对于输出的每个数字来说,你都需要执行 5×5×192 (5*5为卷积核的大小,192为通道的数量)次乘法运算,把这些数相乘结果等于 1.2 亿(120422400)。Inception 层还有一个问题,就是计算成本的问题,我们来看一下5×5 过滤器在该模块中的计算成本。这种架构首先输入是28*28*192,然后输出是28*28*32和上一个的输入输出一样。第二个卷积层:28*28*32*5*5*16= 1000 万。原始图片为28*28*192经过32个5*5的过滤操作,原创 2023-12-17 23:31:30 · 1201 阅读 · 0 评论 -
每天五分钟计算机视觉:Inception网络是由多个Inception模块构成
所以 Inception 网络只是很多这些你学过的模块在不同的位置重复组成的网络,所以如果你理解了之前所学的 Inception 模块,你就也能理解 Inception 网络。原创 2023-12-15 23:19:29 · 614 阅读 · 0 评论 -
每天五分钟计算机视觉:GoogLeNet的核心模型结构——Inception
我们使用64个1*1的卷积核对其进行操作(same 卷积),我们假设输出为28*28*64,得到第一个输出我们使用3*3的卷积核对其进行操作(same 卷积),我们假设输出是 28×28×128。从而得到第二个值。然后我们把第二个值堆积到第一个值上使用5*5的卷积核对其进行操作(same 卷积),假设输出变成 28×28×32,从而得到第三个值,然后我们把第三个值再次堆积。或许我们不想对图片进行卷积操作,而是想要池化操作,从而得到一些不同的输出结果。原创 2023-12-14 23:37:58 · 706 阅读 · 0 评论 -
每天五分钟计算机视觉:为什么说1*1的卷积核是全连接神经网络?
总的来说为什么说1*1的卷积核类似于全连接,上面解释了就是因为1*1的卷积核会和输入的每个小格子进行交互,导致了出现了全连接的情况,事实上当你看后面的文章的时候,比如目标检测的时候,你会发现确实如此。原创 2023-12-11 23:35:31 · 1209 阅读 · 0 评论 -
每天五分钟计算机视觉:使用1*1卷积层来改变输入层的通道数量
在卷积神经网络中有很多重要的卷积核,比如1*1的卷积核,3*3的卷积核,本文将讲解1*1的卷积核的使用,它在卷积神经网络中具有重要的地位。由于1*1的卷积核使用了最小的窗口,那么1*1的卷积核就失去了卷积层可以识别高和宽维度上相邻元素构成的模式的功能。所以1*1的卷积核的主要计算发生在通道维上。原创 2023-12-10 22:23:30 · 1081 阅读 · 0 评论 -
每天五分钟计算机视觉:稠密连接网络(DenseNet)
在前面的课程中我们学习了残差网络ResNet,而DenseNet可以看成是ResNet的后续,我们看一下图就可以看出二者的主要区别了。原创 2023-12-08 21:24:17 · 1265 阅读 · 0 评论 -
每天五分钟计算机视觉:为什么残差网络ResNet如此强大?
为什么ResNet效果会这么好,为什么构建更深层次的 ResNet网络的同时还不降低它们在训练集上的效率。本文解释一下为什么ResNet会这么优秀。原创 2023-12-07 23:56:23 · 741 阅读 · 0 评论 -
每天五分钟计算机视觉:通过残差块搭建卷积残差神经网络Resnet
随着深度神经网络的层数的增加,神经网络会变得越来越难以训练,之所以这样就是因为存在梯度消失和梯度爆炸问题。本节课程我们将学习跳跃连接方式,它可以从某一网络层获取激活a,然后迅速反馈给另外一层,甚至是神经网络的更深层,从而解决梯度消失的问题。原创 2023-12-06 23:39:43 · 751 阅读 · 0 评论 -
每天五分钟计算机视觉:VGG网络相对于AlexNet网络有哪些不同?
在前面的课程中,我们已经学习了VGG网络模型,也学习了AlexNet网络模型,AlexNet模型先于VGG网络模型产生,所以VGG在一定程度上要优于AlexNet模型,二者来看一下,二者究竟有什么不同?原创 2023-12-05 23:26:38 · 1559 阅读 · 0 评论 -
每天五分钟计算机视觉:AlexNet网络的结构特点
在前面的一篇文章中,我们对AlexNet网络模型的参数进行了详细的介绍,本文对其网络模型的特点进行总结。原创 2023-12-02 20:32:03 · 838 阅读 · 0 评论 -
每天五分钟计算机视觉:经典的卷积神经网络之VGG-16模型
然后又是若干个卷积层,使用 128 个过滤器,以及一些 same 卷积,然后进行池化,可以推导出池化后的结果是56×56×128,接着再用 256 个相同的过滤器进行三次卷积操作,然后再池化,然后再卷积三次,再池化。连续两个卷积层,都是 64 个 3×3 的过滤器对输入图像进行卷积,输出结果是224×224×64,因为使用了 same 卷积,通道数量也一样。VGG-16 的结构并不复杂,这点非常吸引人,而且这种网络结构很规整,都是几个卷积层后面跟着可以压缩图像大小的池化层,池化层缩小图像的高度和宽度。原创 2023-12-01 23:00:11 · 1200 阅读 · 0 评论 -
每天五分钟计算机视觉:ImageNet大赛的世界冠军AlexNet模型
2012 Imagenet 比赛第一,Top5准确度超出第二10% ,它让人们认识到了深度学习技术的威力。比 LeNet更深,用多层小卷积层叠加替换大卷积层,就是说每一个卷积层的通道数小,不像LeNet一样每个卷积层的通道数很大。原创 2023-12-01 22:58:49 · 899 阅读 · 0 评论 -
每天五分钟计算机视觉:LeNet是最早用于数字识别的卷积神经网络
卷积层块的基本单位是卷积层后接最大池化层:其中卷积层用来识别图像里的空间模式,比如线条和物体的局部。同时卷积层保留输入形状,使得图像的像素在高和宽两个方向上的相关性均得到了有效的识别。另外一方面,卷积层通过滑动窗口将同一卷积核与不同位置的输入重复计算,从而避免参数尺寸扩大。而池化层则用来降低卷积层对位置的敏感性。原创 2023-11-28 00:11:41 · 641 阅读 · 0 评论 -
每天五分钟计算机视觉:经典架构的力量与启示
在深度学习和计算机视觉领域,卷积神经网络(Convolutional Neural Networks,简称CNN)无疑是最为经典的架构之一。近年来,随着研究的不断深入和新架构的不断涌现,许多初学者可能会忽视这些经典架构的重要性。然而,理解并学习这些经典架构,对于我们深入理解卷积神经网络的工作原理,以及如何设计更有效的模型具有极大的帮助。本文将探讨学习经典卷积网络架构的原因,并阐述其对于现代深度学习实践的启示。原创 2023-11-28 00:02:28 · 1554 阅读 · 0 评论 -
每天五分钟计算机视觉:卷积层比全连接层的优势是什么?
神经网络可以通过这两种机制减少参数,以便我们用更小的训练集来训练它,从而预防过度拟合。实际上卷积核核图像卷积的时候,每次卷积核所覆盖的像素只是一小部分,也就是局部特征,也就是局部感知。CNN是一个局部到整体的过程,而传统的神经网络是整体的过程。原创 2023-11-08 11:16:19 · 643 阅读 · 0 评论 -
每天五分钟计算机视觉:搭建手写字体识别的卷积神经网络
就这样构建了一个可以完成手写字体识别的卷积神经网络,我们可以发现,随着神经网络深度的加深,高度和宽度通常都会减少,从 32×32 到 28×28,到 14×14,到 10×10,再到 5×5。所以随着层数增加,高度和宽度都会减小,而通道数量会增加,从 3 到 6 到 16 不断增加,然后得到一个全连接层。本例中我们使用的是一个卷积层然后接一个池化层。这是一种常见的模式,还有一种模式是多个卷积层后面再跟一个池化层,然后是几个全连接层,最后是一个 softmax。原创 2023-11-04 21:49:55 · 1060 阅读 · 0 评论 -
每天五分钟计算机视觉:池化层的反向传播
卷积神经网络(Convolutional Neural Network,CNN)作为一种强大的深度学习模型,在计算机视觉任务中取得了巨大成功。其中,池化层(Pooling Layer)在卷积层之后起到了信息压缩和特征提取的作用。然而,池化层的反向传播一直以来都是一个相对复杂和深奥的问题。本文将详细解释卷积网络池化层反向传播的实现原理,并探讨其在信息压缩方面的奥秘。原创 2023-11-03 20:11:01 · 1123 阅读 · 0 评论 -
计算机视觉:池化层的作用是什么?
池化层是CNN中的一种操作,用于减小特征图的空间尺寸,同时保留重要的特征信息。它通过对输入特征图的局部区域进行聚合操作,将该区域内的特征值合并为一个代表性的值,从而减少参数数量、降低计算复杂度,并且具有一定的平移不变性。原创 2023-10-14 11:41:38 · 1799 阅读 · 0 评论 -
计算机视觉:一文搞懂卷积神经网络中的池化层
池化层是卷积神经网络中的一种重要层,用于降低输入数据的空间维度,减少参数数量,提高模型的计算效率。它通过对输入数据进行降采样操作,将输入数据的大小缩小,同时保留重要的特征信息。最常见的池化方法有最大池化和平均池化,它们可以帮助提取窗口内的重要特征。池化层在图像分类、目标检测、图像分割和图像生成等任务中有广泛的应用。通过合理设计和使用池化层,可以提高卷积神经网络的性能和效率。原创 2023-10-14 10:10:22 · 270 阅读 · 0 评论 -
计算机视觉:什么是感受野?
计算机视觉中的感受野是指神经网络中每个神经元对输入图像像素的影响范围,也就是神经元所关注的区域大小。在卷积神经网络中,每个卷积层的神经元只接收上一层的一部分输入,这个输入区域就是神经元的感受野。感受野的大小影响着神经网络的性能和特征提取能力。在CNN中,每一层都由多个卷积核组成,每个卷积核扫描输入图像的一个小区域并计算出对应的特征。每个卷积核的大小决定了神经元的感受野大小。在浅层网络中,每个神经元的感受野通常只能覆盖输入图像的一个小区域,而在深层网络中,每个神经元的感受野可以覆盖输入图像的大部分区域。原创 2023-08-30 22:38:47 · 825 阅读 · 0 评论 -
计算机视觉:深层卷积神经网络的构建
随着神经网络计算深度不断加深,通常开始时的图像比较大,初始值为 39×39,高度和宽度会在一段时间内保持一致,然后随着网络深度的加深而逐渐减小,图片大小从 39 到 37,再到 17,最后到 7。而通道数量在增加,从 3 到 10,再到 20,最后到 40。不光这个卷积神经网络是这样的,很多神经网络的图像大小和通道数量也是这样变化的,这是规律。原创 2023-08-27 12:19:51 · 731 阅读 · 0 评论 -
计算机视觉:卷积层的参数量是多少?
以一个二维卷积核为例,假设卷积核的大小为K×K,深度为D,输入数据的通道数为C,那么卷积核的参数量可以计算为:参数量 = K × K × C × D其中,K × K是卷积核的大小,C是输入数据的通道数,D是卷积核的深度。这个公式反映了卷积核的参数量与卷积核的大小、输入数据的通道数以及卷积核的深度之间的关系。输入数据的通道数决定了卷积核的深度。输入数据的通道数可以理解为输入数据的特征维度,不同的通道对应着不同的特征。卷积核的深度决定了它能够提取的特征的种类。原创 2023-07-31 22:54:42 · 1541 阅读 · 0 评论