自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

要相信光

有空的话就写写博客这样子...

  • 博客(130)
  • 资源 (1)
  • 收藏
  • 关注

原创 【论文速览】根据人脑fMRI信号重建图像 Image Reconstruction from human brain activity

这篇博文将介绍今年两个比较新的根据人脑活动信号直接生成视觉刺激图像的工作,具体地说,就是根据观测图像时生成的脑补fMRI信号去重建观测图像。一篇工作为:High-resolution image reconstruction with latent diffusion models from human brain activity,另一篇为:MindDiffuser: Controlled Image Reconstruction from Human Brain Activity with Semant

2023-06-04 22:36:04 1599

原创 一文速览扩散模型优化过程:从DDPM到条件生成模型Stable Diffusion

本文会从最简单的扩散模型开始讲起,然后根据原始模型存在的缺点介绍当前的一些改进方法,最后介绍一个经典的可用于条件生成的扩散模型Stable Diffusion.

2023-05-30 11:36:02 7170

原创 【论文速览】图像分割领域的通用大模型SegGPT - Segmenting Everything in Context

本文主要介绍了图像分割领域的通用大模型SegGPT,全文名:SegGPT - Segmenting Everything in Context.

2023-04-13 16:03:34 1998 4

原创 【论文速览】ICLR23 - 将图像视为一组点集 Image as Set of Points

ICLR2023 - Image as Set of Points. 提出了一种全新视觉backbone - CoC,将图像视为一组点集合,无需卷积和自注意力操作,采用聚类的方式进行特征聚合与分发。相比于CNN和ViT有着更好的可解释性与数据域泛化能力(适用于不同数据类型)。

2023-03-30 17:23:33 834

原创 【图像配准】CVPRW21 - 深度特征匹配 DFM

论文解读《DFM: A Performance Baseline for Deep Feature Matching》,用于图像配准/图像匹配的深度特征匹配方法DFM。模型无需训练,利用预训练模型,采用DNNS和HRA策略即可达到SOTA性能。

2023-03-26 21:45:20 2850

原创 【论文速览】引入motion guidance用于模糊分解/模糊插帧

模糊分解任务是根据一张运动模糊的图片去生成清晰的视频帧序列,在这个过程中会存在运动歧义性的问题。本文介绍的工作通过引入motion guidance解决了这个问题,进一步提升了模糊分解模型的性能与多样性生成能力。

2023-03-20 12:55:05 364

原创 CVPR21 - BasicVSR:简单有效的视频超分辨率Baseline

视频超分辨率算法BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond

2023-01-13 00:03:05 1580

原创 记录我の秋招之旅【23届 CV算法岗】

记录我的2023秋招之旅,最终上岸阿里巴巴CV算法岗

2022-12-21 23:49:08 1214 15

原创 如何正确地计算神经网络模型的推理时间【含代码,以pytorch为例】

无论是做学术还是做工程项目,实际推理时间()总是我们衡量一个模型好坏的重要参照指标。目前已经也有很多博客在介绍如何计算一个神经网络模型的推理时间,但是写得都比较"粗糙",在看了一些国内外的博客后,对这个问题有了一些总结性的经验,故写下这篇博客。某些博客直接将python程序的测速方式用到神经网络模型的测速中来(使用计时),这忽略了深度学习问题的特殊性(在GPU上进行推理)。直接使用这种方式进行测速会忽略两个关键问题,导致测出来的速度不准:① 异步执行;② GPU预热。...

2022-06-05 22:34:25 16333 13

原创 NIPS20 基于在线聚类的表征学习 SwAV《Unsupervised Learning of Visual Features by Contrasting Cluster Assignment》

SwAV,使用在线聚类进行表征学习Unsupervised Learning of Visual Features by Contrasting Cluster Assignments

2022-05-10 10:46:33 3310

原创 Nips20 - 半监督图像分类代表作 FixMatch《Simplifying Semi-Supervised Learning with Consistency and Confidence》

半监督学习FixMatch,同时利用伪标签和一致性进行SSL

2022-04-14 16:00:38 1488

原创 【目标检测 Object Detection】从YOLO v1 到 YOLO v3 算法总结

YOLO v1 ~ v3 技术总结与特点分析

2022-03-10 21:18:25 955

原创 【目标检测】AAAI20 - 提升边界框回归《Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression》

AAAI2020,DIoU, CIoU, GIoU, IoU 提升目标检测性能必备 《Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression》

2022-03-02 10:50:48 5084

原创 ICLR17 - 用于半监督学习的时序融合《TEMPORAL ENSEMBLING FOR SEMI-SUPERVISED LEARNING》

π model,时间融合模型,半监督学习代表作《temporal ensembling for semi-supervised learning》

2022-02-27 20:13:52 2351

原创 CVPR19-(HTC)用于实例分割的混合任务级联架构《Hybrid Task Cascade for Instance Segmentation》

HTC, Hybrid Task Cascade for Instance Segmentation. 一个用于实例分割的多阶段级联RCNN模型。

2022-02-25 21:08:52 5921

原创 CVPR18 - 不需要指定超参数的无监督聚类《Efficient Parameter-free Clustering Using First Neighbor Relations》

CVPR18 oral, FINCH, 无需指定超参数的无监督聚类算法

2022-02-17 17:25:34 2424 11

原创 【机器学习经典算法】K近邻(KNN):核心与总结

KNN算法的主要核心以及算法总结,包括KD树的构建与搜索

2022-02-16 22:12:20 5357

原创 CVPR2017:密集连接的卷积网络DenseNet《Densely Connected Convolutional Networks》

DenseNet论文阅读

2022-01-28 16:50:20 4889 1

原创 (2022) 异常检测新任务《Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly Types》

谷歌云AI Research团队2022异常检测新工作

2022-01-21 12:43:48 6225

原创 PAMI19 - 强大的级联RCNN架构《Cascade R-CNN: High Quality Object Detection and Instance Segmentation》

Cascade RCNN 级联的RCNN架构 论文分析与解读

2021-12-23 22:53:46 2729 2

原创 初探“谱聚类”算法(无公式)

本文不会设计到数学公式的推导,而是从抽象层面对谱聚类进行叙述,并介绍几个改进的算法。试图给读者留有一些印象,了解谱聚类的基本概念、特性,在以后需要的时候可以进行尝试。

2021-12-21 17:05:22 3403

原创 Pytorch:浅探Tensor的各种索引形式

文章目录前因各种Tensor索引操作1. 简单索引2. 一般的花式索引3. 复杂的花式索引4. Informer代码示例前因之前一直以为对ndarray的各种索引切片操作还算得上熟悉,但今天师弟问了我Informer实现中ProbSparse Self-Attention的一些Tensor索引操作,才发现有些操作还不太懂,而网上也缺乏相关的参考资料。因此在一系列探索下,写下了这篇博客。各种Tensor索引操作构造示例数组x,为一个三维tesnor:import torchx = torch.ar

2021-12-18 12:03:00 6287 4

原创 ICCV21 - 无监督语义分割《Unsupervised Semantic Segmentation by Contrasting Object Mask Proposals》

文章目录原文地址初识相知回顾原文地址ICCV原文地址初识在无监督设置下,学习密集语义表征(dense semantic representations)是一个非常重要的问题,这引导网络学习像素级的语义表征/嵌入,这对无监督语义分割非常重要。如果解决了这个问题,那么后续直接使用K-Means聚类将每个像素聚集到对应的sematic groups就可以执行语义分割。目前采用的无监督表征学习(自监督学习)通常学习到的是图像级的表征【比如进行实例判别的对比学习】,无法表征其具有像素判别性。而一个好的像素

2021-12-15 16:46:52 16128 5

原创 Transformer自监督学习(2021) - SiT: Self-supervised vIsion Transformer

文章目录原文地址初识相知回顾原文地址https://arxiv.org/pdf/2104.03602.pdf【萨里大学】初识采用ViT进行在无标注数据集上进行自监督学习,降低ViT对大数据量训练的依赖,为视觉Transformer学习一个好的表征,用于下游任务。为达到这个目的,文中提出了SiT(Self-supervised vIsion Transformer),网络结构如下图所示,包括三个pretext task:重建任务、旋转方向预测以及对比学习。相知网络架构:SiT的网络结构如上图

2021-12-13 20:58:30 5575 2

原创 ECCV / TNNLS 20 - 如何在异常检测中利用“结构structure - 纹理texture”一致性【P-Net,MemSTC-Net】

文章目录前言P-NetMEMSTC-Net总结前言不管是医学图像还是工业图像领域,异常检测都是非常重要的一个研究方向(在训练时只有正常样本,测试时需要模型判断输入样本是否存在异常)。存在一个先验:正常/健康的样本都存在着规律性的结构,而异常样本由于异常/病变区域的存在,其结构通常会被损坏【如上图所示,其展示了"眼底图像中的结构化血管",“光学相干断层扫描图像中的结构化解剖结构”】。那么,如何利用图像这种结构-纹理的关系到异常检测中来呢?本文介绍上海科技大学Kang Zhou分别在ECCV2020和T

2021-12-10 11:41:43 4108 6

原创 (Unsupervised Anomaly Detection)无监督异常检测领域最新研究进展 - Part 3 基于嵌入的方法

文章目录前言1. 基于Deep SVDD1.1 Deep SVDD2. 基于SPADE2.1 SPADE (CVPR2021)前言异常检测领域中,基于嵌入的方法指的是:将图像送入模型,提取特征,并在对应的特征空间中学习分界面。与重构方法的主要不同在于,其不在RGB图像空间而是在高维的特征空间中进行异常检测;与自监督的方法不同,不过于依赖额外的负样本的构造 / 代理任务的设计,主要考虑的特征空间中的差异。1. 基于Deep SVDD1.1 Deep SVDD2. 基于SPADE2.1 SPADE

2021-12-08 19:54:50 16734 16

原创 (Unsupervised Anomaly Detection)无监督异常检测领域最新研究进展 - Part 1 基于重构的方法

文章目录前言1. 基线 AE/VAE2. 基于inpainting思想2.1 SMAI (BMVC2020)2.2 SCADN (AAAI2021)2.3 RIAD (PR2021)3. 基于Memory Bank3.1前言在图像异常检测中,基于重构的方法是一种很自然的思想:构建一个Encoder-Decdoer结构的网络执行重构任务,目标是让模型能够重构好正常样本。那么在测试时,对于正常样本仍然能够正常重构,而异常样本由于分布的差异,导致重构效果较差,从而可以通过像素级的比较得到异常得分,判断一个样本

2021-11-24 21:41:38 15906 20

原创 2021(self-supervised) - 浅谈MAE《Masked Autoencoders Are Scalable Vision Learners》

文章目录原文地址论文阅读方法前因初识相知分析问题具体技术回顾原文地址https://arxiv.org/pdf/2111.06377.pdf论文阅读方法三遍论文法前因最近没太关注自监督学习领域的进展,但最近几天公众号都在疯狂推送这篇kaiming大佬的自监督学习新作《MAE》,抱着好奇的态度看了一下,有一些自己的感悟和思考。此外,这篇文章在知乎上也引起了大佬们的广泛讨论,以及也有很多不错的博客进行了分析。[1] 知乎讨论链接[2] https://mp.weixin.qq.com/s/hG

2021-11-23 22:07:18 3835

原创 CVPR2018-即插即用的注意力模块SE Module《Squeeze-and-Excitation Networks》(含代码)

文章目录原文地址论文阅读方法初识相知回顾代码参考原文地址原文论文阅读方法三遍论文法初识在卷积操作中,提取局部特征的同时融合了通道间的特征。很多工作中也都主要关注空间维度上的注意力,而这篇文章要做的事情就是建模特征通道维度上的注意力,起到特征校准的功能(feature recalibration):加强有用的特征 + 抑制无用的特征。主要的操作如上图所示:先对特征图U进行全局编码得到1x1xC维的特征(Squeeze),经过非线性变换得到通道级注意力权重(Excitation),利用它对特征图

2021-11-08 23:29:42 4335 1

原创 (Unsupervised Anomaly Detection)无监督异常检测领域最新研究进展 - Part 0 异常检测简述

无监督异常检测领域进展研究,包括了概念介绍、常用数据集介绍、方法分类等等。

2021-10-24 22:38:12 19727 25

原创 NIPS20 - 将对比学习用于监督学习任务《Supervised Contrastive Learning》

文章目录原文地址论文阅读方法初识相知回顾代码原文地址原文论文阅读方法三遍论文法初识对比学习这两年在自监督学习、无监督学习任务中非常火,取得了非常优秀的性能。这个工作就是想办法将其用在监督学习任务中,在训练过程中更有效地利用标签信息。文章研究的点主要在于对比学习在分类任务中的应用作者首先分析了分类任务中最常采用的交叉熵损失函数的缺点:① 对噪声数数据缺乏鲁棒性; ② 分类边界的问题(the possibility of poor margins)。这样会导致模型泛化能力下降,因此也有不少工

2021-10-19 14:49:49 4336 1

原创 Nips2021(Segmentation) - 高效的语义分割transformer《SegFormer》

文章目录原文地址论文阅读方法初识相知Transformer EncoderAll-MLP Decoder整体网络结构讨论与实验回顾代码原文地址原文论文阅读方法三遍论文法初识本文的工作主要是Transformer在语义分割领域的应用,虽然CVPR21已经有SETR(基于ViT)了,但是其本身还是存在不少问题的:① ViT作为backbone只能输出固定分辨率的特征图,这对于密集预测任务显然不够友好;② 由于self-attention操作的存在,transformer的运算量和参数两都非常大,不利

2021-10-16 15:40:39 3678

原创 ECCV20 - OCRNet:聚合对象上下文特征用于语义分割《Object-Contextual Representations for Semantic Segmentation》

文章目录原文地址论文阅读方法初识相知回顾原文地址原文 - 待完善论文阅读方法三遍论文法初识对于语义分割这类密集预测任务,上下文特征是非常重要的信息。在早期的一些工作中,主要着重于捕获多尺度特征(空间维度),比如PSPNet或者DeepLab系列中的ASPP。但后来的工作利用attention机制考虑特征点之间的对应关系,比如OCNet或者DANet。上下文特征(context):某个位置周围像素点的特征。回顾语义分割的本质,其实就是对每个像素点进行分类。而本文从一个简单的idea出发:每

2021-09-29 23:25:43 1853

原创 多模态特征融合机制(含代码):TFN(Tensor Fusion Network)和LMF(Low-rank Multimodal Fusion)

文章目录写在前面简单的concatTFN融合策略论文全称:《Tensor Fusion Network for Multimodal Sentiment Analysis》《Efficient Low-rank Multimodal Fusion with Modality-Specific Factors》写在前面最近在做一个分类的比赛,想要用上数据中的多模态信息(主要是文本和图像特征),因此探索了一些多模态特征的融合机制,并记录下来。下文中均以3种不同模态下的特征融合为例。并设A模态特征

2021-09-27 21:57:49 27659 42

原创 有趣的巴什博弈(Bash Game)

文章目录问题定义解法问题定义问题存在两种不同的形式:A和B两个人玩游戏,假设有n个物品,每人每次必须至少拿1个,最多拿m个,先拿到最后一个物品的人获胜。思考一种最佳策略?A和B两个人玩游戏,假设有n个物品,每人每次必须至少拿1个,最多拿m个,先拿到最后一个物品的人失败。思考一种最佳策略?存在很多变种,比如喊数字等等,但核心都是一样的。解法首先给出结论,不管n和m的取值如何,问题都存在唯一解,即该游戏不公平。赛制1:先拿完的人获胜首先对n进行分解,n = k(m+1) + l,将n转

2021-09-14 22:32:36 1613

原创 NIPS15 - 神经网络中的空间转换模块STN《Spatial Transformer Network》(含代码复现)

文章目录原文地址论文阅读方法初识相知回顾原文地址待补充论文阅读方法三遍论文法初识相知回顾

2021-09-12 21:58:01 1587 3

原创 ICML19 - 最强backbone?《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》

文章目录原文地址论文阅读方法初识相知Compound Model ScalingEfficientNet回顾代码原文地址待补充论文阅读方法三遍论文法初识网络的设计通常要考虑输入分辨率、深度、宽度等因素,更好地平衡各因素会带来更高的性能收益。在之前的工作中,网络设计大多只考虑到某个单一尺度,并且很多工作都基于大量的人为设计,从而只能达到一个次优解(sub-optimal)。因此,本文的第一个工作就是统一研究深度、宽度、分辨率对网络设计过程中性能性能的影响,并采用统一的系数进行缩放控制(comp

2021-09-12 20:15:10 326

原创 CVPR17(backbone) - ResNeXt : 引入网络设计中的新维度cardinality

ResNext论文解读

2021-09-05 22:24:59 590 2

原创 ECCV2018-即插即用的注意力模块《CBAM:Convolutional Block Attention Module》(含代码复现)

文章目录原文地址论文阅读方法初识相知回顾代码复现文章目录原文地址论文阅读方法初识相知回顾代码复现原文地址原文论文阅读方法三遍论文法初识注意力机制也是人类视觉系统中非常重要的策略,视觉系统对眼球接收到的图像信息进行处理,突出重要的部分,忽略不重要的部分。因此,在视觉神经网络的设计中,这也是一个值得考虑的方面。本文主要提出了一个简单而有效的注意力模块CBAM,全称是Convolutional Block Attention Module。CBAM综合考虑了卷积特征图的两个维度:通道和空间维度

2021-09-03 21:54:17 1137 2

原创 当CNN遇见Transformer《CMT:Convolutional Neural Networks Meet Vision Transformers》

文章目录原文地址论文阅读方法初识相知回顾原文地址原文及附加材料论文阅读方法三遍论文法初识ViT直接将Transformer架构用于视觉,依附于大数据集上的预训练,达到了不错的效果。并且后续也出现大量优秀的改进工作,展现了transformer不凡的性能,但还是弱于相同尺寸的CNN(比如EfficientNet)。作者认为虽然标准的transformer能够捕获到patch间的长距离依赖关系,但相比于NLP任务,视觉任务中的2D结构,以及patch间的局部空间信息也非常重要。此外,transfo

2021-08-21 15:21:35 2809 1

机器人操作系统ROS之调参手册

全国大学生智能车竞赛-室外光电组ROS智能车 里面包含了一些大牛关于ROS如何调参的想法以及思路,不管对于比赛还是学习都是一份不错的参考资料~

2020-08-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除