deep learning
文章平均质量分 92
Phoenixtree_DongZhao
深度学习 图像处理
展开
-
谷歌新作:面向灵活感知的视觉记忆
训练神经网络是一项整体性的工作,类似于将知识刻入石头:一旦这个过程完成,由于所有信息都分布在网络的权重中,在网络中编辑知识几乎是不可能的。本文探索了一种简单而有力的替代方案,即将深度神经网络的表示能力与数据库的灵活性结合起来。通过将图像分类任务分解为图像相似性(基于预训练嵌入)和搜索(通过从知识数据库快速检索最近邻),构建了一个简单且灵活的视觉记忆系统,该系统具有以下关键功能:(1)能够灵活地跨尺度添加数据:从单个样本到整个类别乃至十亿级的数据;(2)通过遗忘和内存修剪来删除数据的能力;原创 2024-08-17 07:16:46 · 876 阅读 · 0 评论 -
腾讯研究院《工业大模型应用报告》2024.03 简读
腾讯研究院发布的《工业大模型应用报告》,主要分析了大模型在工业智能化发展中的应用现状、机遇、挑战及未来展望,不论是以后离开学校工作还是留在学校科研,都值得一看以指导工作和研究方向。:大模型与小模型将长期共存,小模型在特定场景和资源受限环境中发挥重要作用,而大模型则以其泛化能力和处理复杂任务的优势展现潜力。:大模型在工业领域的应用,有望推动工业发展进入“自适应、自决策、自执行”的智能化阶段,提升生产效率、降低成本、提高产品质量。:针对特定工业场景和任务,对大模型进行微调,提高模型在特定任务上的表现。原创 2024-08-12 06:27:30 · 528 阅读 · 0 评论 -
遥感中的AI基础模型 综述
我们的研究还发现,预训练方法,特别是诸如对比学习和掩码自编码器之类的自监督学习技术,显著提高了遥感任务(如场景分类、目标检测等)中基础模型的性能和鲁棒性。传统上,遥感技术依赖于人工解释和特定任务的模型,但随着基础模型——即能够以前所未有的精度和效率执行广泛任务的大规模预训练AI模型的出现,遥感技术得到了显著提升。本文全面综述了2021年6月至2024年6月期间发布的遥感领域基础模型,根据这些模型在计算机视觉和特定领域任务中的应用进行分类,深入剖析了它们的架构、预训练数据集和方法论。原创 2024-08-09 18:03:08 · 889 阅读 · 0 评论 -
打破故有思维--超大卷积核 RepLKNet: Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs
本文重新审视现代卷积神经网络 (CNNs) 中的大卷积核设计。原创 2022-06-24 02:11:36 · 1361 阅读 · 2 评论 -
无监督显著目标检测论文阅读(一):光谱聚类投票方法 Unsupervised Salient Object Detectionwith Spectral Cluster Voting
本文旨在通过利用自监督特征的光谱聚类来解决无监督显著性目标检测 (SOD) 的任务。原创 2022-06-08 10:18:52 · 1484 阅读 · 0 评论 -
论文速读:Online Convolutional Re-parameterization
Paper: https://arxiv.org/pdf/2204.00826v1.pdfCodes are available at https: //github.com/JUGGHM/OREPA_CVPR2022.原创 2022-05-21 19:54:45 · 1305 阅读 · 1 评论 -
卷积网络重新反超 Transformer,ConvNeXt:A ConvNet for the 2020s
本文的主要思想是,将 Swin-Transformer 中使用的方方面面的技术使用在传统 ConvNet 上,来探讨这些技术是否能够在 ConvNet 上 work。结果发现是肯定的。原创 2022-01-29 00:11:04 · 6342 阅读 · 0 评论 -
基于强化学习的白盒照片后处理框架 -- Exposure: A White-Box Photo Post-Processing Framework
本文采用强化学习实现图像编辑,问题与方法契合度很高,因此是一个不错的思路。人为的图像编辑通常是采取不同操作[pdf]Fig. 1. Our method provides automatic and end-to-end processing of RAW photos, directly from linear RGB data captured by camera sensors to visually pleasing and display-ready images. Our sys原创 2022-01-28 20:35:29 · 2321 阅读 · 0 评论 -
Zetane Engine : 神经网络一键可视化
只需要上传一个模型,Zetane Engine就可以巡视整个神经网络,并且还可以放大网络中的任何一层,显示特征图,看清流水线上的每一步转载 2022-01-25 08:48:57 · 4749 阅读 · 10 评论 -
自注意力和 CNN 的结合 ACmix : On the Integration of Self-Attention and Convolution
本文首先证明了一个传统的核大小为 k x k 的卷积可以分解为 k^2 个单独的卷积,然后进行移位和求和操作。然后,将自注意模块中的 query、key 和 value 的投影解释为多个 1x1 卷积,然后计算注意力权重和值的聚合。因此,这两个模块的第一阶段包含类似的操作。与第二阶段相比,第一阶段的计算复杂度占主导地位。这种观察自然地导致了这两个看起来截然不同的范式的优雅集成,也就是说,混合模型 ACmix可以同时享受自注意和卷积的好处,同时与纯卷积或自注意对应的模型相比,具有最小的计算开销。原创 2021-12-26 08:56:58 · 5903 阅读 · 0 评论 -
论文速读:Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation
本文试图将二维自注意分解为两个一维自注意。这降低了计算复杂度,并允许在更大甚至全局区域内执行注意力。同时,本文也提出了位置敏感的自注意设计。结合这两种方法可以得到位置敏感轴向注意层,这是一种新型的构建块,可以将其叠加形成用于图像分类和密集预测的轴向注意模型。原创 2021-12-22 05:10:21 · 1981 阅读 · 0 评论 -
4 个简单操作,实现 CPU 轻量级网络 ---- PP-LCNet: A Lightweight CPU Convolutional Neural Network
PP-LCNet: A Lightweight CPU Convolutional Neural Network[pdf][github 1][github 2]本文提出一个能够在 CPU 上训练的深度学习网络模型,文章和算法都很简单,很容易复现。总结起来就 4 点:1. 使用H-Swish (替代传统的 ReLU);2. SE 模块放在最后一层,并使用大尺度卷积核;3. 大尺度卷积核放在最后几层;4. 在最后的 global average pooling 后增...原创 2021-12-21 15:11:00 · 1458 阅读 · 0 评论 -
[NeurIPS 2021] TokenLearner:自适应学习 token 个数和位置 - What Can 8 Learned Tokens Do for Images and Videos?
本文介绍了一种新的视觉表征学习,它依赖于少量自适应学习的 tokens,适用于图像和视频的理解任务。原创 2021-12-16 20:22:18 · 2649 阅读 · 0 评论 -
密集预测任务的多任务学习(Multi-Task Learning)研究综述 - 优化方法篇
[ TPAMI 2021 ]Multi-Task Learning for Dense Prediction Tasks: A Survey[ The authors ]• Simon Vandenhende, Wouter Van Gansbeke and Marc Proesmans Center for Processing Speech and Images, Department Electrical Engineering, KU Leuven.• Stamatios G原创 2021-11-25 14:05:21 · 3065 阅读 · 0 评论 -
密集预测任务的多任务学习(Multi-Task Learning)研究综述 - 网络结构篇(上)
[ TPAMI 2021 ]Multi-Task Learning for Dense Prediction Tasks: A Survey[ The authors ]• Simon Vandenhende, Wouter Van Gansbeke and Marc Proesmans Center for Processing Speech and Images, Department Electrical Engineering, KU Leuven.• Stamatios G原创 2021-11-25 08:46:07 · 3803 阅读 · 0 评论 -
密集预测任务的多任务学习(Multi-Task Learning)研究综述 - 摘要前言篇
[ TPAMI 2021 ]Multi-Task Learning for Dense Prediction Tasks: A Survey[ The authors ]• Simon Vandenhende, Wouter Van Gansbeke and Marc Proesmans Center for Processing Speech and Images, Department Electrical Engineering, KU Leuven.• Stamatios G原创 2021-11-25 08:45:49 · 1420 阅读 · 0 评论 -
密集预测任务的多任务学习(Multi-Task Learning)研究综述 - 网络结构篇(下)
[ TPAMI 2021 ]Multi-Task Learning for Dense Prediction Tasks: A Survey[ The authors ]• Simon Vandenhende, Wouter Van Gansbeke and Marc Proesmans Center for Processing Speech and Images, Department Electrical Engineering, KU Leuven.• Stamatios .原创 2021-11-25 08:46:24 · 2882 阅读 · 0 评论 -
完整阅读 何凯明最新一作:Masked Autoencoders Are Scalable Vision Learners
在自然语言处理 (NLP) 中,对数以百万计数据的应用,已经通过自监督的预训练模型 (如 BERT) 成功地解决了。本文提出的 masked autoencoders (MAE)是一种可扩展的计算机视觉自监督学习器。本文核心思想:对输入图像的随机块进行 mask,然后重建缺失的像素。本文的核心方法是,提出了一个非对称的编码器-解码器体系结构,发现 mask 输入图像的高比例,会产生一个重要的且有意义的自监督任务。原创 2021-11-25 06:39:22 · 3740 阅读 · 3 评论 -
残差流-可逆生成模型 [NeurIPS 2019] Residual Flows for Invertible Generative Modeling
Residual Flows for Invertible Generative Modeling[pdf]AbstractFlow-based generative models parameterize probability distributions through an invertible transformation and can be trained by maximum likelihood. Invertible residual networks provide a原创 2021-11-07 04:25:10 · 1233 阅读 · 0 评论 -
ICCV2021 频域图像翻译 Frequency Domain Image Translation: More Photo-realistic, Better Identity-preserving
本文提出了一种新的频域图像翻译(FDIT) 框架,利用频率信息增强图像生成过程(研究方法)。本文的主要想法是将图像分解为低频和高频成分,其中高频特征捕获类似于 identity 的对象结构(核心思想)。本文的训练目标有利于在像素空间和傅里叶频谱空间中保持频率信息(方法优/特点)。原创 2021-11-27 13:23:12 · 3321 阅读 · 7 评论 -
非深度网络 Non-deep Network:低延迟平行网络 ParNet,仅 12 层媲美 ResNet
Non-deep NetworkAnkit Goyal1,2 Alexey Bochkovskiy2 Jia Deng1 Vladlen Koltun21Princeton University 2 Intel Labs[pdf] [github]Figure 1: Top-1 accuracy on ImageNet vs. depth (in log scale) of various models. ParNet performs competitively ...原创 2021-10-31 14:38:46 · 2473 阅读 · 1 评论 -
2021 ICCV、CVPR 知识蒸馏相关论文
2021 ICCVPerturbed Self-Distillation: Weakly Supervised Large-Scale Point Cloud Semantic Segmentation[pdf] [supp][bibtex]Densely Guided Knowledge Distillation Using Multiple Teacher Assistants[pdf] [supp] [arXiv]Figure 1. Problem defini...原创 2021-10-29 20:50:56 · 3291 阅读 · 0 评论 -
可逆神经网络顶级会议论文汇总(2019-2021)
2019 iccvHiding Video in Audio via Reversible Generative ModelsHyukryul Yang,Hao Ouyang,Vladlen Koltun,Qifeng Chen[pdf][bibtex]Back2021 cvprArtFlow: Unbiased Image Style Transfer via Reversible Neural FlowsJie An,Siyu Huang,...原创 2021-10-28 07:01:13 · 2548 阅读 · 0 评论 -
ICLR2021 用可逆生成流解耦全局和局部表示 Decoupling Global and Local Representations via Invertible Generative Flows
Decoupling Global and Local Representations via Invertible Generative Flows[PDF] [GitHub]Figure 1: Examples of the switch operation, which switches the global representations of two images from four datasets: (a) CIFAR-10, (b) ImageNet, (c) LSUN B.原创 2021-10-24 01:02:13 · 1031 阅读 · 0 评论 -
基于可逆神经网络的图像隐藏技术 (ICCV 2021) - HiNet: Deep Image Hiding by Invertible Network
HiNet: Deep Image Hiding by Invertible Network[pdf] [github]Figure 1. The illustration of difference between our image hiding method and the traditional methods [5, 23, 32].AbstractImage hiding aims to hide a secret image into a cover i..原创 2021-10-27 19:45:41 · 12201 阅读 · 8 评论 -
ICCV 2021可逆的跨空间映射实现多样化的图像风格传输:Diverse Image Style Transfer via Invertible Cross-Space Mapping
Diverse Image Style Transfer via Invertible Cross-Space MappingHaibo Chen, Lei Zhao∗ , Huiming Zhang, Zhizhong Wang Zhiwen Zuo, Ailin Li, Wei Xing∗ , Dongming LuCollege of Computer Science and Technology, Zhejiang University[paper]目录Abstract1原创 2021-11-28 15:59:16 · 1505 阅读 · 0 评论 -
可逆网络风格迁移-解决内容泄漏问题 [CVPR 2021] ArtFlow: Unbiased Image Style Transfer via Reversible Neural Flows
ArtFlow: Unbiased Image Style Transfer via Reversible Neural FlowsJie An1∗ Siyu Huang2∗ Yibing Song3 Dejing Dou2 Wei Liu4 Jiebo Luo1 1 University of Rochester 2 Baidu Research 3 Tencent AI Lab 4 Tence...原创 2021-10-16 01:42:52 · 3293 阅读 · 2 评论 -
论文阅读:ResMLP: Feedforward networks for image classification with data-efficient training
ResMLP: Feedforward networks for image classification with data-efficient trainingAbstractWe present ResMLP, an architecture built entirely upon multi-layer perceptrons for image classification.It is a simple residual network that alternates (i) a原创 2021-10-13 11:51:39 · 1519 阅读 · 0 评论 -
优于 ViT 和 MLP-Mixer 的全局滤波器:Global Filter Networks for Image Classification [NeurIPS 2021]
Global Filter Networks for Image Classification[pdf] [project] [github]AbstractRecent advances in self-attention and pure multi-layer perceptrons (MLP) models for vision have shown great potential in achieving promising performance with fewer .原创 2021-10-12 16:48:14 · 4139 阅读 · 0 评论 -
伪逆学习自动编码器射频干扰去除 Radio frequency interference mitigation using pseudo-inverse learning auto-encoders
Radio frequency interference mitigation using pseudo-inverse learning auto-encoders [RAA 2020]RAA : Research in Astronomy and Astrophysics【推荐阅读:CSDN 博客】深度学习射频干扰消除网络:Deep residual detection of Radio Frequency Interferencefor FAST目录AbstractIn..原创 2021-10-09 21:40:44 · 1095 阅读 · 0 评论 -
深度学习射频干扰检测网络:Deep residual detection of Radio Frequency Interferencefor FAST
Deep residual detection of Radio Frequency Interference for FAST [MNRAS2020]https://arxiv.org/pdf/2001.06669.pdfMNRAS:Monthly Notices of the Royal Astronomical SocietyABSTRACTRadio frequency interference (RFI) detection and excision is...原创 2021-10-09 16:51:08 · 2786 阅读 · 2 评论 -
一个挑战 ViT,MLP-Mixer 的新模型 ConvMixer:Patches Are All You Need? [Under Review ICLR 2022]
Convolutions Attention MLPs Patches are All Your Need?[OpenReview] [GitHub]本文看点:1. 本文原文非常短,只有 4 页多一点,整个模型也很简单,但它 挑战了 ViT 有效性的原因。2. 总结了最近特别火的 ViT,MLP-Mixer,ResMLP 等新构架之所以效果很好的共性。特斯拉 AI 高级总监 Andrej Karpathy 在推特上感叹道:我被新的 ConvMixer 架构震撼了。【(包括下原创 2021-10-09 11:14:28 · 2345 阅读 · 0 评论 -
2021 年深度学习哪些方向比较新颖,比较有研究潜力?
2021年深度学习哪些方向比较新颖,处于上升期或者朝阳阶段,比较有研究潜力?计算机视觉联盟Yesterday计算机视觉联盟团队成员为国内各大高校博士,专注于深度学习、机器学习、图像解译、人工智能、无人驾驶等热门领域,分享开源框架学习(如TensorFlow)、项目经历及编程语言(C++、python)等咨讯115篇原创内容Official Account点上方计算机视觉联盟获取更多干货仅作学术分享,不代表本公众号立场,侵权联系删除转载于:作者丨陀飞轮、Zhifeng...原创 2021-10-05 17:49:55 · 1834 阅读 · 0 评论 -
论文阅读 Glow: Generative Flow with Invertible 1×1 Convolutions
Glow: Generative Flow with Invertible 1×1 Convolutions[pdf] [github]目录Glow: Generative Flow with Invertible 1×1 ConvolutionsAbstractIntroductionBackground: Flow-based Generative ModelsProposed Generative Flow1. Actnorm: scale and bias .原创 2021-10-06 09:28:13 · 2443 阅读 · 1 评论 -
内存高效的可逆 GAN 网络:Reversible GANs for Memory-efficient Image-to-Image Translation
Reversible GANs for Memory-efficient Image-to-Image Translation[pdf]目录AbstractIntroductionBackground and Related WorkMethodAbstractThe Pix2pix [17] and CycleGAN [40] losses have vastly improved the qualitative and quantitative visua.原创 2021-10-04 09:14:20 · 1281 阅读 · 0 评论 -
可逆残差网络:不存储激活的反向传播 Reversible Residual Network: Backpropagation Without Storing Activations
The Reversible Residual Network: Backpropagation Without Storing Activations[pdf]Code available at https://github.com/renmengye/revnet-publicAbstractDeep residual networks (ResNets) have significantly pushed forward the state-of-the-art ..原创 2021-10-01 08:36:35 · 2403 阅读 · 0 评论 -
[2021 CVPR] 可逆网络实现 RAW 和 RGB 图像转换:Invertible Image Signal Processing
Invertible Image Signal Processing[pdf]原创 2021-09-28 20:36:51 · 2862 阅读 · 0 评论 -
可逆网络 ICLR 2017 : Density Estimation Using Real NVP
Density Estimation Using Real NVPhttps://arxiv.org/pdf/1605.08803.pdfAbstractUnsupervised learning of probabilistic models is a central yet challenging problem in machine learning. Specifically, designing models with tractable learnin...原创 2021-09-23 07:21:16 · 2313 阅读 · 0 评论 -
MyDLNote-Transformer: Swin Transformer, 使用移位窗口的分层 Vision Transformer
Swin Transformer: Hierarchical Vision Transformer using Shifted Windowshttps://arxiv.org/pdf/2103.14030.pdfCode is available at https:// github.com/microsoft/Swin-Transformer.AbstractThis paper presents a new vision Transformer, called Swin Tra原创 2021-07-07 07:15:32 · 1346 阅读 · 2 评论 -
MyDLNote-Transformer : Pyramid Vision Transformer 一个无卷积的密集预测通用Backbone
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutionspaperhttps://arxiv.org/pdf/2102.12122.pdf Code is available at https://github.com/whai362/PVT Note:ImprovedPyramid Vision Transformer, PVTv2: Improved Baseli...原创 2021-07-05 19:29:48 · 673 阅读 · 1 评论