论文算法
文章平均质量分 57
记录看过的论文算法及个人理解,按arXiv时间戳排序。
JNingWei
工作后比较忙,不怎么看账号和消息。回复不及时望见谅。
展开
-
论文阅读: 2104.STDC
2104.13188:Rethinking BiSeNet For Real-time Semantic Segmentation创新点Short-Term Dense Concatenate(STDC):在 BiSeNet(context path + spatial path)的基础上,对有效但极耗时的 spatial path 进行了 去冗余 。逐步降低特征图的维度,并利用它们的聚合来表示图像,以此形成 STDC 网络的基本模块。在解码器中,通过将空间信息的学习以 sin原创 2021-09-06 03:24:50 · 279 阅读 · 0 评论 -
论文阅读: 2104.Lite-HRNet
2104.06403:Lite-HRNet: A Lightweight High-Resolution Network创新点结构设计:在HRNet中用 shuffle block 替换 res block,得到了Naive Lite-HRNet。基于HRNet多尺度信息丰富的特性,加入了多尺度信息交互,并通过pooling的方法,降低了Shuffle Block中的1*1 Conv的计算复杂度。动机:为了做一个高分辨率的轻量化HRNet网络。采用类似的思路,在HRNe原创 2021-09-06 03:21:14 · 465 阅读 · 0 评论 -
论文阅读: 2103.Boundary IoU
2103.16562:Boundary IoU: Improving Object-Centric Image Segmentation Evaluation动机Mask IoU对于大物体边界的分割质量不敏感:随着物体尺寸的增加,物体内部像素数量以二次方形式增加,而物体边界像素数量以线性形式增加,导致尺寸越大的物体,边界像素占总像素的比重越小。当物体内部像素被正确分割时,即使边界像素分割质量不好,Mask IoU的值也比较高。下图中横轴表示物体面积,纵轴表示Mask IoU的值;左图和右图分别原创 2021-09-06 03:17:39 · 517 阅读 · 0 评论 -
论文阅读: 2005.U2Net
2005.09007:U2-Net: Going Deeper with Nested U-Structure for Salient Object Detection该网络用于轻量级的 SOD(显著目标检测,Salient Object Detection),能够取得出色的效果,同时模型文件较小,更适合于移动设备。创新点U-shape套娃:原有的U-shape架构套娃U-shape子架构,最终能取得十分出色的效果:原文表示甚至还能继续往下套娃(不过会too complicat原创 2021-09-06 03:10:36 · 325 阅读 · 0 评论 -
论文阅读: 2002.SFNet
2002.10120:Semantic Flow for Fast and Accurate Scene Parsing创新点FAM(Flow Alignment Module,流对齐模块)。受光流的启发,提出一种语义流对齐的方法,可以解决在使用双线性插值进行上采样时所出现的对不齐问题。低分辨率的高级特征图上的语义信息很好地流向了高分辨率的低级特征图中。通过丢弃空洞卷积来减少计算开销并利用流对齐模块来丰富低层特征的语义表示,使网络能够在语义分割精度和运行时间效率之间实现了最佳的原创 2021-09-06 03:02:58 · 772 阅读 · 0 评论 -
论文阅读: 1912.PointRend
1912.08193:PointRend: Image Segmentation as Rendering中心思想上采样过程中不断迭代(一般是迭代5次upsample_2x)的均匀采样是导致分割边缘不精细的原因:规则网格(regular grid)会导致原本需要特殊关照的、所占像素区域极小的高频(重要)区域(非平滑边缘)被无差别对待。对每次的上采样做一个精修后处理:在不增加分辨率的前提下,可以借鉴计算机图像学中的图像渲染思想,设计新module,以迭代渲染出更高质量的分割图。图像渲染原创 2021-09-06 03:00:06 · 308 阅读 · 0 评论 -
论文阅读: 1911.SINet
1911.09099:SINet: Extreme Lightweight Portrait Segmentation Networks with Spatial Squeeze Modules and Information Blocking DecoderSINet 侧重于在提升人像分割网络的速度。网络结构网络框架主要分为两部分:包含 空间压缩模块(spatial squeeze module)的编码器。空间压缩模块(spatial squeeze module):在 shuf原创 2021-09-06 02:49:32 · 431 阅读 · 0 评论 -
论文阅读: 1909.OCRNet
1909.11065:Segmentation Transformer: Object-Contextual Representations for Semantic Segmentation创新点OCR:聚合 “对象上下文信息“(Object-Contextual Representations)的分割head。因为像素的标签是像素所在的对象的标签,可通过相应的粗分割对象区域信息,对粗分割进行后处理(来增强像素特征的描述)。提出的OCR方法不同于传统的多尺度上下文方案:OCR将相同原创 2021-09-06 02:43:24 · 704 阅读 · 0 评论 -
论文阅读: 1908.HRNetv1
1908.07919:Deep High-Resolution Representation Learning for Visual Recognition创新点一种全新的网络架构思想:以前的模型都是下采样后再上采样,采用低分辨率到高分辨率的处理来达到预期的高分辨率表示。而HRNet能够在网络整个过程中保持特征的高分辨率表示:一直维持高分辨率分支,通过融合低分辨率分支上采样带来的high level信息,达到重复多尺度信息的融合。可以使得heatmap在空间上预测关节点更准确。原创 2021-09-06 02:35:05 · 205 阅读 · 0 评论 -
论文阅读: 1904.HRNetv2
1904.04514:High-Resolution Representations for Labeling Pixels and Regions待补充。原创 2021-09-06 02:28:17 · 184 阅读 · 0 评论 -
论文阅读: 1904.DFANet
1904.02216:DFANet: Deep Feature Aggregation for Real-Time Semantic Segmentation创新点特征聚合:将子网络、子层级的有区分力的特征分别进行聚合。尺度间的特征聚合包含两个阶段:首先,将从 backbone 中抽取得到的高层特征重复利用,来解决语义信息和结构细节的gap。其次,将网络的处理过程的不同阶段所获得的特征进行组合,来提高特征的表达能力。性能实际上这种网络因为结构太复杂,并不能实时(好多论文原创 2021-09-06 02:26:50 · 198 阅读 · 0 评论 -
论文阅读: 1903.PotraitNet
2019.03.007:PortraitNet: Real-time portrait segmentation network for mobile device四大创新点:轻量级:轻量级的实时人像分割U型架构,可以有效地在移动设备上运行:边界损失(boundary loss):边界的label来自对分割gt的canny算子的输出。设置线宽为4。因为边界占据图像很小的部分,为了避免极度的样本不均衡,所以用的是focal loss。一致性损失(consistency原创 2021-09-06 02:21:31 · 266 阅读 · 0 评论 -
论文阅读: 1808.BiSeNet
1808.00897:BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation创新点提出了 2-path 的 Bilateral Segmentation Network (BiSeNet),context path来编码不同感受野和不同尺度的高级语义信息(即high-level feature),spatial path来编码丰富的细节空间信息(即low-level feature),融合后得到预测结果原创 2021-09-06 02:15:14 · 188 阅读 · 0 评论 -
论文阅读: 1802.Deeplabv3+
1802.02611:Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation属于典型的DilatedFCN,它是Google提出的DeepLab系列的第4弹。创新点在DeepLab v3上的基础上增加了一个Decoder。Decoder将底层特征与高层特征进一步融合,提升分割边界准确度。从某种意义上看,DeepLabv3+在DilatedFCN基础上引入了EcoderDecode原创 2021-09-06 02:09:24 · 338 阅读 · 0 评论 -
论文阅读: 1712.BSN
论文针对肖像分割(Portrait Segmentation)。四大创新点提出了BSNet:三个trick:个体边缘敏感算子。全局边缘敏感算子。边缘敏感属性分类器。Boundary-sensitive Network for Portrait Segmentation论文解读...原创 2021-09-06 02:02:20 · 200 阅读 · 0 评论 -
论文阅读: 1706.Deeplabv3
1706.05587:Rethinking Atrous Convolution for Semantic Image Segmentation三大改进点去掉CRF模块。改进了ASPP:相比V2的ASPP增加了1x1的conv以及global avg pooling。对ASPP每个空洞卷积加入了BN层。在级联模块中应用空洞卷积:将空洞卷积应用在最后面的级联模块,框架可以更通用。论文中的级联模块指复制了四份block4,这四份分别使用不同rate的空洞卷积,最终blo原创 2021-09-06 01:59:03 · 176 阅读 · 0 评论 -
论文阅读: 1705.DRN
1705.09914:Dilated Residual Networks使用扩张卷积替换模型中的下采样,保持feature map的空间分辨率同时不降低后续卷积层的接收野的分辨率,实验证明这样简单转换是有效的:DRN结构没有了resnet最后的两次下采样,也就是说,特征图在28x28的大小之后就不再变小了。不再减小特征图尺寸,那么就要增加卷积核的膨胀系数。可以看到,DRN没有后两次下采样(在本该第四次采样的卷积过程中将膨胀系数改成2,在本该第五次采样的卷积过程中将膨胀系数改成4,均能保持相同的原创 2021-09-06 01:55:20 · 159 阅读 · 0 评论 -
论文阅读: 1611.PSPNet
论文阅读: 1611.PSPNet原创 2021-09-06 01:52:42 · 289 阅读 · 0 评论 -
论文阅读: 1611.RefineNet
1611.06612:RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation创新点提出基于Resnet的残差连接的思想设计的RefineNet(提炼网络),可以充分利用各个层级的features,使得语义分割更为精准。作者认为高级语义特征可以更好地进行分类识别,而低级别视觉特征有助于生成清晰、详细的边界。residual connections(identity map原创 2021-09-06 01:49:57 · 152 阅读 · 0 评论 -
论文阅读: 1606.Deeplabv2
1606.00915:DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs两大创新点:ASPP受SPPNet启发,新提出空间金字塔池化 Atous Spatial Pyramid Pooling(ASPP)(类似于SPPNet的空间金字塔结构),并行的采用多个采样率的空洞卷积提取特征,再将特征融合:能够用多尺度获得原创 2021-09-06 01:45:35 · 185 阅读 · 0 评论 -
论文阅读: 1511.SegNet
1511.00561:SegNet: A Deep ConvolutionalEncoder-Decoder Architecture for ImageSegmentation只是结构上比较优雅,它得到的结果不一定比FCN好:原创 2021-09-06 01:40:47 · 155 阅读 · 0 评论 -
论文阅读: 1505.UNet
1505.04597:U-Net: Convolutional Networks for Biomedical Image SegmentationU-net:对称语义分割模型该网络模型:一个收缩路径 + 一个对称扩张路径。收缩路径用来获得上下文信息,对称扩张路径用来精确定位分割边界。非常经典的结构:...原创 2021-09-06 01:37:50 · 116 阅读 · 0 评论 -
论文阅读: 1505.DeconvNet
1505.04366:Learning Deconvolution Network for Semantic Segmentation结构设计完全对称的结构:有种自编码器的感觉在里面,先编码再解码。这样的结构主要使用了反卷积和上池化。即: 而上池化的实现主要在于池化时记住输出值的位置,在上池化时再将这个值填回原来的位置,其他位置填0即OK。...原创 2021-09-06 01:31:37 · 150 阅读 · 0 评论 -
论文阅读: 1412.Deeplabv1
1412.7062:Semantic Image Segmentation with Deep ConvolutionalDeeplab系列是很成熟优雅的结构,以至于现在的很多改进是基于这个网络结构的进行的。 受制于当时的basemodel发展水平,DeepLabv1仅使用VGGNet进行实验。创新点提出了一种新的卷积:空洞卷积(Atrous Convolution):解决的痛点:普通的卷积和池化层会导致最终的特征图极小,特征图经过上采样再输出成分割结果,这样的上采样就有些“放大过度”了。原创 2021-09-06 01:27:02 · 266 阅读 · 0 评论 -
论文阅读: 1411.FCN
1411.4038:Fully Convolutional Networks for Semantic Segmentation深度学习应用于图像语义分割的开山之作(难免效果很糙),CVPR2015 Best Paper。创新点卷积化(Convolutional): 丢弃全连接,换成卷积层。(已变成了固定结构)分类使用的网络通常会在最后连接几层全连接层,它会将原来二维的矩阵(图片)压扁成一维的,从而丢失了空间信息,最后训练输出一个标量(分类标签)。而图像语义分割的输出需要是个分割图,且原创 2021-09-06 01:12:34 · 125 阅读 · 0 评论 -
论文阅读: DetNet
IntroductionFace++的Li Zeming大神注意到了现有Detection Network的两大通病:借用原本为了class而设计的network,牵强地附加上其他辅助结构来实现Detection;下采样能带来大感受野,从而提升class任务精度。但下采样又会损失空间信息,影响detection精度。二者难以协调为此,Li Zeming大神专门设计了detecti...原创 2018-04-19 14:32:52 · 3021 阅读 · 7 评论 -
论文阅读: YOLOv3
Introduction首先,我要贴出大神霸气侧漏的论文Introduction: 这可以解释为“艺高人狂妄”么?(→_→)该文章继承了YOLOv2的bbox预测任务的方法,对bbox分类任务进行了修改 (用简单的logistic替换下softmax) 。 将DarkNet-19扩展至DarkNet-53: InnovationYOLOv3的作者自己也说了,本文没...原创 2018-04-20 20:27:38 · 2016 阅读 · 0 评论 -
论文阅读: R-FCN-3000
IntroductionInnovationResultThinking[1] R-FCN-3000 at 30fps: Decoupling Detection and Classification原创 2018-06-10 11:24:45 · 619 阅读 · 0 评论 -
论文阅读: Cascade R-CNN
Introduction传统的Faster R-CNN结构如下: 在train阶段,其最终的输出结果是通过如下一个简单的IoU阈值判断来决定哪些proposal作为output: 对IoU阈值设置的探索由于早前VOC只以 mAP50mAP50mAP_{50} 作为唯一的性能衡量标准,为了overfit该数据集,算法的IoU阈值在train阶段和inference阶段常被简单...原创 2018-06-08 14:33:42 · 5460 阅读 · 11 评论 -
论文阅读: SNIP
IntroductionInnovationResultThinking[1] An Analysis of Scale Invariance in Object Detection - SNIP原创 2018-05-20 10:54:20 · 3336 阅读 · 0 评论 -
论文阅读: Light-head R-CNN
IntroductionInnovationResultThinking[1] Light-Head R-CNN: In Defense of Two-Stage Object Detector原创 2018-06-09 17:44:25 · 1033 阅读 · 1 评论 -
论文阅读: RetinaNet
Introduction此篇论文获得了ICCV最佳学生论文奖,指导人是FBAI的He Kainming大神: 众所周知,detector主要分为以下两大门派: - one stage系 two stage系 代表性算法 YOLOv1、SSD、YOLOv2、YOLOv3 R-CNN、SPPNet、Fast R-CNN、Faster R-CNN ...原创 2018-04-22 14:59:05 · 68672 阅读 · 44 评论 -
论文阅读: Soft-NMS
Introduction传统的Non-Maximum Supression去重过程如下: 但是对于两个“高度重合的object”,却容易“误杀”,导致只剩下一个bbox: Innovation针对传统的NMS计算公式: Bharat Singh等人提出了soft版的NMS: 即: 不再删除所有与highest-score的bbox大于IoU阈值的框,而改为降...原创 2018-06-11 10:45:19 · 1666 阅读 · 0 评论 -
论文阅读: DCN
Introduction传统的CNN中,convolution 和 pooling 的操作已被定死。只能在方正死板的区域内按部就班地映射操作: 这种设计显然对于现实场景中遇到ratio(比例)和rotation(旋转角度)多变的的非刚体object,是不够general的。那么怎么办呢?传统的回避途径有以下两个:根据先验 加数据:根据先验信息,增加training datase...原创 2018-06-10 16:12:48 · 7486 阅读 · 3 评论 -
论文阅读: FPN
Introduction文章开篇即指出,现有的三种 Scale handling 方法都不好。Featurized image pyramid 计算开销和存储开销都太大: 基于深度网络的检测算法出来之前,检测算法基本都是基于这种scale handling;后来出现的SNIP、SNIPER也是基于Image Pyramid。Single feature map 框不出小物体: ...原创 2018-06-12 10:31:07 · 2200 阅读 · 1 评论 -
论文阅读: YOLOv2
Introduction本文获得了CVPR 2017 Best Paper Honorable Mention: 行文思路自成一体,按照 Better、Faster、Stronger 三个章节来分布介绍其贡献。Better概括来说就是一堆的小细节。引入Batch Normalization,涨点2。训练分类的阶段,每10个epoch就在448×448448×44844...原创 2018-04-20 17:54:42 · 1129 阅读 · 0 评论 -
论文阅读: Speed/accuracy trade-offs
IntroductionInnovationResultThinking[1] Speed/accuracy trade-offs for modern convolutional object detectors原创 2018-06-07 13:55:57 · 1917 阅读 · 0 评论 -
论文阅读: ResNeXt
IntroductionResNeXt是ResNet的加强版,将ResNet原本简单的“plain版残差结构”替换成了“Inception版残差结构”: 每个“Inception版残差结构”内部各通道通过不同权重进行相加: 标准计算公式如下: 作者还给出了不同型号的“Inception版残差结构”配件: 以下是ResNeXt组件说明书: Result在Im...原创 2018-04-24 09:38:49 · 661 阅读 · 0 评论 -
论文阅读: Xception
xception原创 2018-06-08 21:10:33 · 2658 阅读 · 5 评论 -
论文阅读: DenseNet
IntroductionDenseNet获得 CVPR 2017 Best Paper: 将原本ResNet的 “串行式一对一的identity mapping” 变成了 “一对多的identity mapping”: 不同型号DenseNet的网络结构说明书: ResultDenseNet在CIFAR和SVHN上都取得了state-of-the-art的错误率: ...原创 2018-04-24 09:55:33 · 563 阅读 · 0 评论