计算机视觉
文章平均质量分 88
初识-CV
梦想总是和我擦肩而过。
展开
-
用神经网络进行图像分类时,为什么输出层的神经单元数量要跟分类数相同?
1.卷积层和FC层的简单理解全连接层(FC)在整个卷积神经网络中起到“分类器”的作用。如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话,全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。在实际使用中,全连接层可由卷积操作实现:对前层是全连接的全连接层可以转化为卷积核为1x1的卷积;而前层是卷积层的全连接层可以转化为卷积核为hxw的全局卷积,h和w分别为前层卷积结果的高和宽。2.最后一层FC在上面的讲解中我们可能对FC有了一些简单的理解,在对图像分类中FC的作用原创 2021-11-20 11:34:00 · 13417 阅读 · 6 评论 -
如何理解CNN中的感受野(receptive-field)以及如何计算感受野?
本文转载自博客园用户@shine-lee的彻底搞懂感受野的含义与计算。1. 感受野(Receptive-Field, RF)是什么?The receptive field is defined as the region in the input space that a particular CNN's feature is looking at (i.e. be affected by). 来自A guide to receptive field arithmetic for Convolutiona原创 2021-09-03 10:30:57 · 13858 阅读 · 0 评论 -
旷视重磅开源YOLOX:新一代实时目标检测网络,超越现有一切YOLO!
本文首发于极市平台,作者:@Happy,转载须经授权并注明来源前言本文是旷视科技在目标检测方面的最新技术总结,同时也是CVPR2021自动驾驶竞赛冠军方案的技术总结。本文将近两年来目标检测领域的各个角度的优秀进展与YOLO进行了巧妙地集成组合(比如解耦头、数据增广、标签分配、Anchor-free机制等)得到了YOLOX,性能取得了大幅地提升,同时仍保持了YOLO系列一贯地高效推理。此外值得一提的是,YOLO系列终于又回到了Anchor-free的怀抱,不用费劲心思去设计anchor了。YOL.转载 2021-07-21 20:50:15 · 12639 阅读 · 0 评论 -
一行代码提升卷积神经网络的计算效率,加速神器torch.backends.cudnn.benchmark
大家在训练深度学习模型的时候,经常会使用 GPU 来加速网络的训练。但是说起 torch.backends.cudnn.benchmark 这个 GPU 相关的 flag,可能有人会感到比较陌生。在一般场景下,只要简单地在 PyTorch 程序开头将其值设置为 True,就可以大大提升卷积神经网络的运行速度。既然如此神奇,为什么 PyTorch 不将其默认设置为 True?它的适用场景是什么?为什么使用它可以提升效率?答案就在本文之中。前言在说 torch.backends.cudnn.benchm.转载 2021-07-16 22:48:50 · 12745 阅读 · 0 评论 -
图像去噪方法总结(最全,最详细),持续更新中......
前言图像降噪的英文名称是Image Denoising, 图像处理中的专业术语。是指减少数字图像中噪声的过程,有时候又称为图像去噪。噪声是图像干扰的重要原因。一幅图像在实际应用中可能存在各种各样的噪声,这些噪声可能在传输中产生,也可能在量化等处理中产生。根据噪声和信号的关系可将其分为三种形式:(f(x, y)表示给定原始图像,g(x, y)表示图像信号,n(x, y)表示噪声。)加性噪声,此类噪声与输入图像信号无关,含噪图像可表示为f(x, y)=g(x, y)+n(x, y),信道噪声及光导摄像原创 2021-07-15 23:18:30 · 35793 阅读 · 6 评论 -
语义分割网络U-Net详解
论文:U-Net: Convolutional Networks for Biomedical Image Segmentation前言语义分割(Semantic Segmentation)是图像处理和机器视觉一个重要分支。与分类任务不同,语义分割需要判断图像每个像素点的类别,进行精确分割。语义分割目前在自动驾驶、自动抠图等领域有着比较广泛的应用。目前已经有不少其他好用的分割网络:Mask RCNN、DeepLabv3+、FCIS等。U-Net网络结构U-Net网络非常简单,前半部分(左边).原创 2021-07-15 19:23:37 · 14869 阅读 · 0 评论 -
如何评价Google提出的MLP-Mixer:只需要MLP就可以在ImageNet上达到SOTA?
前言MLP-Mixer: An all-MLP Architecture for Vision是谷歌大脑的研究员(原ViT团队)在网络架构设计方面挖的新坑,它无需卷积、注意力机制,MLP-Mixer仅需MLP即可达到与CNN、Transformer相媲美的性能。比如,在JFT-300M数据集预训练+ImageNet微调后,所提Mixer-H/14取得87.94%的top1精度。MLP-Mixer这篇论文的创新点和不足首先我们先简单了解一下,MLP-Mixer这篇论文的创新点和不足:MLP-Mixer原创 2021-05-10 16:23:01 · 12808 阅读 · 7 评论 -
Transformer模型详解(图解最完整版)
前言Transformer由论文《Attention is All You Need》提出,现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取,其作为Tensor2Tensor包的一部分。哈佛的NLP团队也实现了一个基于PyTorch的版本,并注释该论文。在本文中,我们将试图把模型简化一点,并逐一介绍里面的核心概念,希望让普通读者也能轻易理解。Attention is All You Need:Attention Is All You Need1.Trans原创 2021-01-08 11:39:47 · 24003 阅读 · 3 评论