读点论文 - 基础任务(分类、分割、检测)
文章平均质量分 95
包括了图像分类、图像分割、目标检测等多个领域的工作
我是大黄同学呀
要相信光
展开
-
【论文速览】图像分割领域的通用大模型SegGPT - Segmenting Everything in Context
本文主要介绍了图像分割领域的通用大模型SegGPT,全文名:SegGPT - Segmenting Everything in Context.原创 2023-04-13 16:03:34 · 2835 阅读 · 4 评论 -
【论文速览】ICLR23 - 将图像视为一组点集 Image as Set of Points
ICLR2023 - Image as Set of Points. 提出了一种全新视觉backbone - CoC,将图像视为一组点集合,无需卷积和自注意力操作,采用聚类的方式进行特征聚合与分发。相比于CNN和ViT有着更好的可解释性与数据域泛化能力(适用于不同数据类型)。原创 2023-03-30 17:23:33 · 1067 阅读 · 0 评论 -
ECCV20 - OCRNet:聚合对象上下文特征用于语义分割《Object-Contextual Representations for Semantic Segmentation》
文章目录原文地址论文阅读方法初识相知回顾原文地址原文 - 待完善论文阅读方法三遍论文法初识对于语义分割这类密集预测任务,上下文特征是非常重要的信息。在早期的一些工作中,主要着重于捕获多尺度特征(空间维度),比如PSPNet或者DeepLab系列中的ASPP。但后来的工作利用attention机制考虑特征点之间的对应关系,比如OCNet或者DANet。上下文特征(context):某个位置周围像素点的特征。回顾语义分割的本质,其实就是对每个像素点进行分类。而本文从一个简单的idea出发:每原创 2021-09-29 23:25:43 · 1962 阅读 · 0 评论 -
ICCV2019(Segmentation):ShelfNet-论文解读《ShelfNet for Fast Semantic Segmentation》
文章目录原文地址论文阅读方法初识(Abstract & Introduction & Conclusion)相知(Body)2. Related Work2.1 Semantic Segmentation2.2 Real-time Semantic Segmentation3. Methods3.1 Structure of ShelfNet3.2 Channel Reduction for Fast Inference Speed3.3 ShelfNet is an Ensemble of原创 2020-07-27 22:55:37 · 1121 阅读 · 0 评论 -
Nips2021(Segmentation) - 高效的语义分割transformer《SegFormer》
文章目录原文地址论文阅读方法初识相知Transformer EncoderAll-MLP Decoder整体网络结构讨论与实验回顾代码原文地址原文论文阅读方法三遍论文法初识本文的工作主要是Transformer在语义分割领域的应用,虽然CVPR21已经有SETR(基于ViT)了,但是其本身还是存在不少问题的:① ViT作为backbone只能输出固定分辨率的特征图,这对于密集预测任务显然不够友好;② 由于self-attention操作的存在,transformer的运算量和参数两都非常大,不利原创 2021-10-16 15:40:39 · 3926 阅读 · 0 评论 -
ICCV21 - 无监督语义分割《Unsupervised Semantic Segmentation by Contrasting Object Mask Proposals》
文章目录原文地址初识相知回顾原文地址ICCV原文地址初识在无监督设置下,学习密集语义表征(dense semantic representations)是一个非常重要的问题,这引导网络学习像素级的语义表征/嵌入,这对无监督语义分割非常重要。如果解决了这个问题,那么后续直接使用K-Means聚类将每个像素聚集到对应的sematic groups就可以执行语义分割。目前采用的无监督表征学习(自监督学习)通常学习到的是图像级的表征【比如进行实例判别的对比学习】,无法表征其具有像素判别性。而一个好的像素原创 2021-12-15 16:46:52 · 17541 阅读 · 5 评论 -
PAMI19 - 强大的级联RCNN架构《Cascade R-CNN: High Quality Object Detection and Instance Segmentation》
Cascade RCNN 级联的RCNN架构 论文分析与解读原创 2021-12-23 22:53:46 · 3162 阅读 · 2 评论 -
ICCV2015(object detection):Fast RCNN-论文解读《Fast R-CNN》
文章目录原文地址论文阅读方法初识(Abstract & Introduction & Conclusion)相知(Body)2. Fast R-CNN architecture and training2.1 The RoI pooling layer2.2 Initializing from pre-trained networks2.3 Fine-tuning for object detectionMulti-task lossMini-batch sampling2.4 Scale原创 2020-08-18 23:18:32 · 865 阅读 · 0 评论 -
【目标检测 Object Detection】从YOLO v1 到 YOLO v3 算法总结
YOLO v1 ~ v3 技术总结与特点分析原创 2022-03-10 21:18:25 · 1244 阅读 · 0 评论 -
ICCV2017(Instance Segmentation):Mask R-CNN-论文解读《Mask R-CNN》
文章目录原文地址论文阅读方法初识(Abstract & Introduction & Conclusion)相识(Body)2. Related Work3. Mask R-CNN3.1 Implementation Details4. Experiments: Instance Segmentation5. Mask R-CNN for Human Pose Estimation回顾(Review)参考代码原文地址https://arxiv.org/pdf/1703.06870v3.p原创 2020-08-26 15:54:43 · 866 阅读 · 0 评论 -
论文解读:Faster R-CNN《Toward Real-Time Object Detection with Region Proposal Network》
文章目录原文地址论文阅读方法初识(Abstract & Introduction & Conclusion)相识(Body)2. Related Work3. Region Proposal NetworksTranslation-Invariant AnchorsLoss Function for Learning Region ProposalsOptimizationSharing Convolutional Features for Region Proposal and Objec原创 2020-08-20 21:29:45 · 532 阅读 · 0 评论 -
CVPR2017(Segmentation):DeepLabV3-论文解读《Rethinking Atrous Convolution for Semantic Image Segmentation》
文章目录原文地址论文阅读方法初识(Abstract & Introduction & Conclusion)相识(Body)2.Related Work3.Methods3.1.Atrous Convolution for Dense Feature Extraction3.2. Going Deeper with Atrous Convolution3.2.1. Multi-grid Method3.3. Atrous Spatial Pyramid Pooling4. Experime原创 2020-05-26 11:49:56 · 1998 阅读 · 0 评论 -
论文解读:R-CNN《Rich feature hierarchies for accurate object detection and semantic segmentation》
文章目录原文地址论文阅读方法初识(Abstract & Introduction & Conclusion)相知(Body)2. Object detection with R-CNN2.1 Module design2.2 Test-time detection2.3 Training2.4 Results on Pascal VOC 2010-122.5 Results on ILSVRC2013 detection3.Visualization, ablation and modes原创 2020-08-17 20:18:00 · 1410 阅读 · 0 评论 -
【目标检测】AAAI20 - 提升边界框回归《Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression》
AAAI2020,DIoU, CIoU, GIoU, IoU 提升目标检测性能必备 《Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression》原创 2022-03-02 10:50:48 · 5247 阅读 · 0 评论 -
CVPR2020(Segmentation):CPNet-论文解读《Context Prior for Scene Segmentation》
文章目录原文地址论文阅读方法初识(Abstract & Introduction & Conclusion)相知(Body)2. Related Work3.Context Prior3.1. Affinity Loss3.2. Context Prior Layer3.3. Aggregation Module3.4. Network Architecure4. Experime...原创 2020-04-26 21:31:20 · 4236 阅读 · 0 评论 -
ECCV2020(Instance Segmentation):BMask R-CNN-论文解读《Boundary-preserving Mask R-CNN》
文章目录原文地址论文阅读方法初识(Abstract & Introduction & Conclusion)相知(Body)2. Related Work3. Boundary-preserving Mask R-CNN3.1 Motivation3.2 Boundary-preserving Mask Head3.3 Learning and Optimization4. Experiments5. DiscussionsCoarse boundary annotation vs. pre原创 2020-08-26 23:12:09 · 2709 阅读 · 16 评论 -
CVPR19-(HTC)用于实例分割的混合任务级联架构《Hybrid Task Cascade for Instance Segmentation》
HTC, Hybrid Task Cascade for Instance Segmentation. 一个用于实例分割的多阶段级联RCNN模型。原创 2022-02-25 21:08:52 · 6226 阅读 · 0 评论 -
CVPR2017:密集连接的卷积网络DenseNet《Densely Connected Convolutional Networks》
DenseNet论文阅读原创 2022-01-28 16:50:20 · 4980 阅读 · 1 评论 -
ICML19 - 最强backbone?《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》
文章目录原文地址论文阅读方法初识相知Compound Model ScalingEfficientNet回顾代码原文地址待补充论文阅读方法三遍论文法初识网络的设计通常要考虑输入分辨率、深度、宽度等因素,更好地平衡各因素会带来更高的性能收益。在之前的工作中,网络设计大多只考虑到某个单一尺度,并且很多工作都基于大量的人为设计,从而只能达到一个次优解(sub-optimal)。因此,本文的第一个工作就是统一研究深度、宽度、分辨率对网络设计过程中性能性能的影响,并采用统一的系数进行缩放控制(comp原创 2021-09-12 20:15:10 · 372 阅读 · 0 评论 -
CVPR17(backbone) - ResNeXt : 引入网络设计中的新维度cardinality
ResNext论文解读原创 2021-09-05 22:24:59 · 776 阅读 · 2 评论 -
当CNN遇见Transformer《CMT:Convolutional Neural Networks Meet Vision Transformers》
文章目录原文地址论文阅读方法初识相知回顾原文地址原文及附加材料论文阅读方法三遍论文法初识ViT直接将Transformer架构用于视觉,依附于大数据集上的预训练,达到了不错的效果。并且后续也出现大量优秀的改进工作,展现了transformer不凡的性能,但还是弱于相同尺寸的CNN(比如EfficientNet)。作者认为虽然标准的transformer能够捕获到patch间的长距离依赖关系,但相比于NLP任务,视觉任务中的2D结构,以及patch间的局部空间信息也非常重要。此外,transfo原创 2021-08-21 15:21:35 · 2989 阅读 · 1 评论 -
ICLR21(classification) - 未来经典“ViT” 《AN IMAGE IS WORTH 16X16 WORDS》(含代码分析)
文章目录原文地址论文阅读方法初识相知主要技术相关讨论实验回顾代码分析预制模块Transformer-BlockViT原文地址Arxiv原文论文阅读方法三遍论文法初识文章完整题目《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》Transformer本身在NLP领域就已经“大红大紫”了,在CV领域,attention机制本身就已经融入了CNN结构,要么与CNN一同应用,要么代替CNN中的某一原创 2021-08-21 15:21:01 · 1669 阅读 · 0 评论 -
ICLR2014:论文解读与复现《Deep inside CNN:Visualising Image Classification Models and Saliency Maps》
《Deep Inside Convolution Networks: Visualising Image Classification Models and Saliency Maps》文章目录原文地址论文阅读方法初识(Abstract & Introduction & Conclusion)相知(Body)2. Class Model Visualisation3. Image-Specific Class Saliency Visualisation3.1 Class Saliency原创 2020-08-09 18:05:47 · 4198 阅读 · 1 评论 -
CVPR2016(classification):ResNet-论文解读与复现《Deep Residual Learning for Image Recognition》
文章目录原文地址论文阅读方法初识(Abstract & Introduction & Conclusion)相知(Body)2. Related Work3. Deep Residual Learning3.1 Residual Learning3.2 Identity Mapping by Shortcut3.3 Network Architecture3.4 Implementation4. Experiments4.1 ImageNet Classification![在这里插入图片原创 2020-07-01 21:49:22 · 2962 阅读 · 1 评论 -
论文分析与复现-VGG:Very Deep Convolutional Networks for Large-scale Image Recognition
文章目录论文阅读方法第一遍(摘要+简介+结论)第一遍(分段阅读)Part 2:Convnet ConfigurationsPart3. Classification Framework论文阅读方法三遍论文法第一遍(摘要+简介+结论)初步结论:由于大量开放的数据图像库(ImgNet)以及好性能的计算系统(GPU)的存在,目前卷积神经网络在大尺度图像和视频分类取得了很大的成功。这篇论文主要探...原创 2020-03-17 12:45:28 · 1507 阅读 · 0 评论 -
论文分析与复现-AlexNet:ImageNet Classification with Deep Convolutional Neural Networks
文章目录论文阅读方法第一遍(摘要+简介+结论)第二遍(分段阅读文章其他内容)论文阅读方法三遍论文法第一遍(摘要+简介+结论)通过摘要可以看出,AlexNet是源于一个基于ImagNet数据集的比赛ImageNet LSVRC-2012,它成功地将卷积神经网络应用到了图像分类任务中来,用来GPU训练,Dropout防止过拟合,吊打传统方案。原文中用了一个’record-breaking r...原创 2020-03-02 21:25:55 · 1702 阅读 · 9 评论 -
如何高效地阅读论文:三遍阅读法
文章目录方法来源第一遍:该不该读?第二遍:抓住要点,暂略细节第三遍:重构论文,注重细节博主之后的论文都会依据此方法进行阅读方法来源三遍阅读法方法不是博主凭空捏造出来的,而是ACM和IEEE Fellow 剑桥大学计算机教授Srinivasan Keshav的论文阅读技巧第一遍:该不该读?1.阅读标题、摘要和简介2.忽略内容,读一读文章中的每个小标题3.如果数学内容,先大致浏览,确定其理...原创 2020-03-02 16:44:52 · 8175 阅读 · 5 评论