自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

m_buddy的博客

背黑锅我来,送死你去,拼全力为众生,牺牲也值得

  • 博客(454)
  • 资源 (16)
  • 论坛 (1)
  • 收藏
  • 关注

原创 Caffe源码,训练流程分析

1. 前言1.1 Caffe结构简单梳理在之前的文章(Caffe源码整体结构及介绍)中介绍了Caffe中的一些重要的组件:1)Blob 主要用来表示网络中的数据,包括训练数据,网络各层自身的参数(包括权值、偏置以及它们的梯度),网络之间传递的数据都是通过 Blob 来实现的,同时 Blob 数据也支持在 CPU 与 GPU 上存储,能够在两者之间做同步。2)Layer 是对神经网络中各种层...

2019-04-14 22:40:26 702 2

原创 XGBoost参数解释

前言本文中针对XGBoost的参数说明进行部分翻译得来,原文链接。因而本文中只对一些关键参数进行了翻译,且由于本人能力有限,文中难免存在错误的地方,还望指正。以下是大致翻译内容。在运行XGboost之前, 我们必须设置三种类型的参数: 通用参数(general parameters),Booster 参数(booster parameters)和学习目标参数(task parameters...

2018-02-19 20:07:34 10731

原创 《Unsupervised Monocular Depth Learning in Dynamic Scenes》论文笔记

参考代码:depth_and_motion_learning1. 概述导读:这篇文章是在(Depth from Videos in the Wild)的基础上进行改进得到的,在之前的文章中运动区域/物体通过mask标注或是bounding box标注的形式确定,但是这样或多或少会存在对外依赖的问题。对此,文章从 刚性物体运动 在相机前运动的特性进行分析得出如下两个特性:1)其在整幅图像中的占比是较少的,毕竟一般情况下不会运动的背景占据了较大的比例;2)刚性运动的物体其内部运动特性是分段的常量值,也

2021-10-24 05:00:00 58

原创 《Depth from Videos in the Wild:Unsupervised Monocular Depth Learning from Unknown Cameras》论文笔记

参考代码:depth_from_video_in_the_wild1. 概述导读:在这篇文章中提出了一种自监督深度估计算法,总体上看文章的算法是与monodepth2方法存在一定程度关联性,它们都是采用视频帧之间的相关性来建立自监督关系的。文章的方法经过凝练主要的工作主要体现为如下几点:1)将相机位姿(旋转和平移矩阵)与相机内参(如果想的话可预测畸变参数)均通过网络预测的形式进行表达,增加对输入数据的适应性;2)采用几何特性(也就是两帧像素计算光度重构损失的时候选择深度最小的为有效像素点)避免遮挡

2021-10-21 23:29:35 7

原创 《RAFT-Stereo:Multilevel Recurrent Field Transforms for Stereo Matching》论文笔记

参考代码:RAFT-Stereo1. 概述导读:RAFT算法是非常经典的立体匹配算法,在光流和立体匹配任务中有着广泛的运用。而这篇文章正是基于RAFT并将其运用到了立体匹配中,并且在如下的几个方面进行改进:1)相比原生的RAFT算法钟重点关注X轴(W方向)的视差信息,前提是输入的图像对需要事先经过极线校准;2)在GPU的update阶段使用stride为[8,16,32][8,16,32][8,16,32]的特征图进行运算,这样可以在迭代优化的同时更加增大网络感受野,从而增加对与大范围无/弱纹理区

2021-10-18 22:13:32 23

原创 《Single Image Depth Prediction with Wavelet Decomposition》论文笔记

参考代码:wavelet-monodepth1. 概述导读:对一幅深度图进行分析可以观察到其是由一些平滑区域和边缘区域组合起来的,对应的可以参考频域中的低频和高频分量。而这篇文章正是提出一种基于频域分析(2D haar小波分析)的深度估计算法,不同于直接监督深度图的频域分解分量,文章的方法通过对分辨率最小的深度图进行监督,之后通过在网络的不同层级上预测频域的分量,使得可以从分辨率最小尺度下进行逆频域变换得到对应的深度结果(也就是深度的频域分量不直接参与回归,而是通过将不同频域的不同分量组合得到的深度图

2021-10-15 22:46:48 40

原创 《ReDet:A Rotation-equivariant Detector for Aerial Object Detection》论文笔记

参考代码:ReDet1. 概述导读:这篇文章针对旋转目标检测问题提出了一种新的检测算法ReDet(Rotation-equivariant Detector),在该算法(为二阶段检测算法)中对旋转目标检测问题进行了细致分析,从特征抽取的backbone、fpn网络开始,到后期特征对齐阶段都进行了改进。具体来讲就是使用具有平移、旋转、镜像不变属性的网络单元构建特征抽取网络,从而使得特征抽取网络具有rotation-equivariance。之后在RRoI Align(rotation RoI)的基础上构

2021-10-13 01:46:30 27

原创 Brief Summary of Bokeh Effect Rendering

1. 前言在现有一些厂商的人像背景虚化效果中,能够明显看到其是对人像进行了分割,之后再单独将背景进行虚化,最后将人像区域与虚化之后的背景融合起来(这里面需要处理很多画质相关的细节问题)。其效果在目前看来已经有了较大的进步,下图是最新发布的VIVO X70处理出来的虚化结果(注:图片来源于网络,侵删):可以看到其参照莱卡相机的虚化效果,对应对输入的图像进行虚化处理,这样的效果在外行人看来已经像那么回事了(尽管还会存在一些badcase,但是相信明天会更好。。。)。单反相机拍摄的背景虚化效果一直是手机相

2021-09-23 23:05:10 17

原创 Brief Summary of Template Matching Based on CNN

1. 前言图像匹配问题是图像领域中较为基础的课题,其发展也从最简单粗暴的模板匹配到现在基于CNN表达的特征匹配,匹配的时效与准确性得到了很大提升。其实从某种意义上来讲模板匹配与目标跟踪存在着一些关联性,对于现有的一些跟踪算法运行过程中目标丢失的情况可以考虑使用模板匹配的方式进行找回,但是这里就需要考虑很多东西了,如目标姿态、光照变化等等因素的影响。如何得到更加鲁棒的模板匹配算法也是一个只得思考的问题。在下面的内容中主要介绍本人认为还不错的算法QATM,并且在之后的内容总结了一些基于CNN的模板匹配算法,

2021-09-23 23:04:27 26

原创 《Robust High-Resolution Video Matting with Temporal Guidance》论文笔记

主页:homepage参考代码:RobustVideoMatting1. 概述导读:这篇文章提出了一种视频场景下的实时matting算法(1080Ti GPU下4K分辨率76 FPS,HD分辨率104 FPS),在算法中考虑了视频的时序特性,在解码器单元中增加了ConvGRU(输入的维度为[B∗T∗3∗H∗W][B*T*3*H*W][B∗T∗3∗H∗W]),用于进行帧间信息传导,从而提升视频matting的稳定性(同时引入了视频时序相关损失也有此目的)。在此基础上融合语义分割与matting任务,使

2021-09-14 23:02:11 275

原创 《STTR:Revisiting Stereo Depth Estimation From a Sequence-to-Sequence Perspective with Transformers》

参考代码:stereo-transformer1. 概述导读:这篇文章通过transformer机制实现了一种立体匹配算法(STTR),在该方法中将立体匹配问题转换为序列上的响应问题,使用未知信息编码与注意力机制替换了传统匹配方法中的cost volume策略。由于替换了cost volume解除了预定max-disparity假设的限制,增强了网络的泛化表达能力。在估计视差图的同时显示地估计遮挡区域的概率结果。此外,为了寻找右视图到左视图的最佳匹配,文中对其中的匹配矩阵添加熵约束,从而实现对匹配过程

2021-09-13 22:56:31 92

原创 《Learning optical flow from still images》论文笔记

主页:home page参考代码:depthstillation1. 概述导读:在这篇文章中提出了一个生成光流训练数据的策略,用以弥补真实光流训练数据的不足。文章的策略首先使用单目深度估计网络(MiDas或MeGaDepth)生成单张图像的深度估计结果。对于光流估计所需的另外一个视图图像,文章通过采样生成相机内参、平移矩阵、旋转矩阵、相机焦距、双目基线的方式,在给预测深度基础上使用双目视觉映射关系生成另外一个视图的图像,并且可以对应获取该图像对的光流。在生成另外一个视图的图像过程中使用优化策略解决了

2021-09-04 23:56:16 60

原创 《WSVD:Web Stereo Video Supervision for Depth Prediction from Dynamic Scenes》论文笔记

参考代码:wsvd_test1. 概述导读:在这篇文章中提出了一种基于光流估计的深度估计网络。该方法首先使用左右双目图像作为输入,并从中估计出光流信息,之后按照估计的光流对图像进行warp,这样就得到深度估计网络需要的3个(warp之后的图像1、光流、图像2)输入。接下来经过编解码网络之后实现对深度的估计。同时为了获得大量且场景多样化的双目3D(左右)图像,文章通过在YouTube中筛选的方式确定了文章使用的WSVD数据集。由于这些数据来源是未知的(其中的焦距、基线等)所以文章提出了一种以归一化梯度为

2021-09-01 01:07:31 31

原创 《R3Det:Refined Single-Stage Detector with Feature Refinement for Rotating Object》论文笔记

参考代码:TF实现版本:R3Det_TensorflowPytorch实现版本:r3det-on-mmdetection旋转检测算法总结:RotationDetection1. 概述导读:这篇文章提出了一种级联优化的旋转目标检测算法。这篇文章的检测算法可以看作是单阶段的(类似RefineDet)检测算法。算法的第一级回归用于生成带旋转角度的roi proposal(也可以称之为带旋转角度的anchor),在之后的优化级中去迭代优化上一级生成的roi proposal。需要注意的是文章的算法在

2021-08-23 22:58:05 129

原创 《Learning Stereo from Single Images》论文笔记

参考代码:stereo-from-mono1. 概述导读:在进行立体匹配的过程中成对且带标签的训练数据是很难去获取的,对此现有的很多方法都是在虚拟的合成数据(如SceneFlow、FlayingThings3D等数据集)上训练完成的,自然其在实际多样化的场景中泛化迁移能力是很弱的。对此文章通过使用MiDas对任意的输入图像进行深度估计,并将深度图转换到视差图,之后按照视差图对源图像进行变换得到另外一个视图,其中会对生成的另外一个视图进行修复和补偿优化从而构建一个双目立体图像对。自此,双目立体图像对构造

2021-08-14 15:21:13 55

原创 《Keep your Eyes on the Lane:Real-time Attention-guided Lane Detection》

参考代码:LaneATT1. 概述导读:这篇文章提出了一种使用anchor points进行车道线检测的算法,该算法的设计源自于Line-CNN。其在Line-CNN的基础上增加了一个global attention操作(在“RoI pooling”特征基础上)使得抽取的单个anchor的RoI特征能够感知全局范围的特征,从而利用了全局信息实现车道线更好的定位。在文中还提出在训练集上统计对预先设置anchor集合进行筛选,从而减少proposal数量,可以在原本的基础上进一步减少最后的计算量,因而文章

2021-08-13 00:13:58 56

原创 《LaneAF:Robust Multi-Lane Detection with Affinity Fields》论文笔记

参考代码:LaneAF1. 概述导读:这篇文章提出了通过语义分割(2分类)检测车道线的算法,不过在其中添加了affinity fields用于区分不同的车道线(从语义分割演变实现“实例分割”)。文中对每条车道线预测两个affinity fields,分别是水平方向和垂直方向。其中水平方向的affinity fields用于归纳当前车道线行的中心点,垂直的affinity fileds用于推断当前车道线下一行预测集合的位置,也就是在图像的行维度上使用水平和垂直的affinity fields进行耦合,从

2021-08-06 01:08:24 99

原创 《Side Window Filtering》论文笔记

1. 概述导读:滤波器是图像处理中常用的算子,具有保边属性的滤波器在某场景下是极具使用价值的。这篇文章提出了一种保边滤波算法,它采用多向窗口设计,在滤波器的中心采用多个窗口计算值滤波值,之后argmin的形式对输出的值进行组合,从而得到最后的滤波结果。文章的方法简洁直接,可以在现有的滤波器基础上进行修改得到,具有良好的移植迁移特性。而且并不需要针对性设计额外的超参数,使得具良好的保边属性鲁棒性强。这篇文章主要关注的3种类型的图像边界情况见下图所示:上面图像边界中(x,y)(x,y)(x,y)处的

2021-08-01 10:47:46 31

原创 高效推理网络:PeleeNet、VoVNet、DetNet

1. PeleeNet参考代码:CaffePyTorch论文名称:《PeleeNet:A Real-Time Object Detection System on Mobile Devices》1.1 设计理念在类MobileNet的轻量化网络中广泛采用深度可分离卷积用于减少参数量和计算量,但文章指出这样的结构在不同深度学习推理框架中效率却不高。对此文章全部采用传统卷积的形式在DenseNet的基础上进行改进得到名为PeleeNet的网络。相比MobileNet网络更加轻量化,运行的速度也

2021-08-01 09:32:30 92

原创 《Involution:Inverting the Inherence of Convolution for Visual Recognition》论文笔记

参考代码:involution1. 概述导读:CNN操作已经被广泛使CV领域,其具有空间无关性(spatial-agnostic)和通道特异性(channel-specific),前一个性质来源于在空间尺度上共享卷积参数,后一个性质来自于输出通道维度上的参数各不相同。在这篇文章中提出了一种性质与之相反的操作involution,通过学习的方式去得到卷积参数,之后经过维度变换之后与unfold之后的特征进行multiply-add,从而得到最后的输出结果,这里用到的multiply-add操作可以看作是

2021-07-19 23:49:28 76 3

原创 《AutoFlow:Learning a Better Training Set for Optical Flow》论文笔记

主页:home page1. 概述导读:在光流监督训练网络中,其需要的真实光流数据是很难获取的,因而合成数据在基于CNN的光流估计任务中扮演了很重要的角色。但是在合成数据上进行训练就很大限制了其在其它类型数据场景的适应性(像FlyingChairs这样的数据本身就具有局限性),也就是泛化能力比较低(或由于预训练的原因未收敛到更优值)。对此文章将target domain的数据与光流训练数据的生成组合起来,在数据生成中使用可训练的参数(不同参数采样表示了不同的数据处理,如仿射变换/模糊等)来变化数据,再

2021-07-12 23:39:14 85 2

原创 《RAFT:Recurrent All-Pairs Field Transforms for Optical Flow》论文笔记

参考代码:RAFT1. 概述导读:这篇文章提出了一种新的光流估计pipline,与之前介绍的PWC-Net类似其也包含特征抽取/correlation volume构建操作。在这篇文章中为了优化光流估计,首先在correlation volume的像素上进行邻域采样得到lookups特征(增强特征相关性),之后直接使用以CNN-GRU为基础的迭代优化网络,在完整尺寸上对光流估计迭代优化。这样尽管采用了迭代优化的形式,文章的迭代优化机制也比想IRR这类方法轻量化,运行速度也更快,其可以在1080 TI

2021-07-09 21:53:46 137 2

原创 《PWC-Net:CNNs for Optical Flow Using Pyramid,Warping,and Cost Volume》论文笔记

参考代码(official):PWC-Net参考代码(pytorch convert):pytorch-pwc1. 概述导读:这篇文章给出了一种使用CNN网络实现光流估计的方法,在该方法中采用了经典的特征金字塔结构作为特征提取网络。之后在金字塔的某个层级上使用上一级的光流作为warp引导,第二幅图像的特征将被warp。进而使用第二幅图像warp之后的特征和第一幅图像的特征构建一个cost volume。在此基础之上,添加一个估计网络从而实现当前金字塔层的光流估计。文章的方法简单明了,在模型的体积上和

2021-07-05 23:46:37 121 2

原创 《Robust Consistent Video Depth Estimation》论文笔记

主页与代码地址:robust_cvd1. 概述导读:这篇文章的目的是为了在视频场景下生成稳定的深度估计结果,其提出的算法可以在一个单目视频中估计出一致的深度图和相机位姿。文章首先会使用MiDas为视频中的单帧图像做初始深度估计(主要用于提供深度scale参数),以及使用Ceres Library上计算相机的初始位姿信息。之后再在输入的视频序列上使用在线finetune形式交替进行深度估计结果与相机位姿优化。在上面的finetune优化中使用到了一个几何优化过程去生成稳定平滑地相机移动轨迹(表征为相机关

2021-07-02 00:49:02 177 1

原创 《Boosting Monocular Depth Estimation Models to High-Resolution ...》论文笔记

参考代码:BoostingMonocularDepth论文:Boosting Monocular Depth Estimation Models to High-Resolution via Content-Adaptive Multi-Resolution Merging1. 概述导读:这篇文章提出了一种使用现有深度估计模型(MiDas)生成具有更高分辨率/更多细节表现深度图的方法(同时保持高分辨率和深度一致性是现存的挑战)。文章探究了输入的图像分辨率/图像中的结构信息是如何影响最后的深度估计的,

2021-06-14 23:48:04 398 3

原创 《S2R-DepthNet:Learning a Generalizable Depth-specific Structural Representation》论文笔记

参考代码:官方:S2R-DepthNet,但是2021-0607通过该入口无法进入了,后续再观察。未知版本:S2R-DepthNet1. 概述导读:这篇文章经过分析人对场景的3D感知,发现场景中的空间结构信息在深度感知中扮演了至关重要的作用。因而文章首先学习得到一个针对深度的结构表达,这个表达中抓住了深度估计中的关键信息,排除一些数据中无关的风格信息。这样使得深度网络着力关注场景的结构信息,使得即使在合成数据场景训练的模型也具有良好的泛化能力。文章方法的组成可以划分为下面的3个部分:1)用于

2021-06-08 00:47:18 557 2

原创 《Structure-Guided Ranking Loss for Single Image Depth Prediction》论文笔记

参考代码:Structure-Guided-Ranking-Loss1. 概述导读:在这篇文章中提出了一种在监督深度估计方法中的损失函数。该方法是属于pair-wise ranking loss族的,文章通过利用目标的分割结果提出了一些新的采样策略,也就是低层次的边缘采样与目标实例级别的采样。从而极大增强了损失函数的约束能力,提升了最后深度图预测在边缘部分的锐化成都,以及目标内部的一致性内在属性。文章将之前一些方法的损失函数进行比较,其结果在边缘与目标内部均得到了不错的提升,见下图所示:理解下

2021-06-07 01:19:35 283

原创 《Towards Robust Monocular Depth Estimation:Mixing Datasets for Zero-shot Cross-dataset Transfer》论文笔记

参考代码:MiDaS1. 概述导读:这篇文章提出了一种监督的深度估计方法,其中使用一些很有价值的策略使得最后深度估计的结果具有较大提升。具体来讲文章的策略可以归纳为:1)使用多个深度数据集(各自拥有不同的scale和shift属性)加入进行训练,增大数据量与实现场景的互补;2)提出了一种scale-shift invariable的loss用于去监督深度的回归过程,从而使得可以更加有效使用现有数据;3)采用从3D电影中进行采样的方式扩充数据集,从而进一步增加数据量;4)使用带有原则属性的多目标

2021-06-06 23:49:28 280

原创 深度估计 ManyDepth 笔记

参考代码:manydepth论文名称:The Temporal Opportunist: Self-Supervised Multi-Frame Monocular Depth1. 概述导读:这篇文章借鉴了多视图深度估计中的cost-volume方法(参考:cost-volume概念),并将其引入到单目的自监督深度估计网络中。这里将原来的双目图像换成了一对前后帧图像,从而去构建cost-volume克服之前的单目深度估计中的scale ambiguity问题。此外,为了克服单目情况下cost-vol

2021-06-01 01:59:58 500 5

原创 深度估计 DenseDepth 笔记

参考代码:DenseDepth论文名称:High Quality Monocular Depth Estimation via Transfer Learning1. 概述导读:这篇文章是使用深度监督的方式进行训练的,文章使用在ImageNet上训练过的DenseNet-169作为编码器,之后使用shortcut链接和上采样模块(上采样操作+2个卷积层)作为解码器,从而构建一个U型的网络结构。在此基础上使用输入的深度GT作为回归目标,从而实现网络的训练。在下图中可以将文章的方法与DRON方法(分

2021-05-30 14:50:55 199

原创 《EfficientNetV2:Smaller Models and Faster Training》论文笔记

参考代码:EfficientNetV21. 概述导读:这篇文章是在EfficientNet基础(借鉴了其中一些既有结论)上进行改进优化来的,其主要的优化点有:1)通过加入training-aware的网络搜索(也就是将网络性能/训练时间/网络参数量组合起来作为NAS的优化目标)去优化网络的训练速度和参数的效率(参数量与最后换得性能的比例);2)在深度可分离卷积组成的MBConv基础上在浅层的stage上引入Fused-MBConv增加网络的性能与加快训练时间;3)直觉上增加图像的size会提升网

2021-05-24 23:34:17 112

原创 《PackNet:3D Packing for Self-Supervised Monocular Depth Estimation》论文笔记

参考代码:packnet-sfm1. 概述导读:这篇文章提出了一种自监督的深度估计方法,其使用视频序列与运动信息作为输入,用网络去估计深度信息/相机位姿,并用最小重构误差去约束整个训练的过程从而实现自监督。文章的创新点主要体现为:使用3D卷机作为深度编解码网络,在相机位姿的6d信息基础上对平移分量进行约束,提出了一个新的数据集DDAD(Dense Depth for Automated Driving)。单目情况下的自监督深度估计问题一般是使用几个相邻的视频帧去相互映射,其中完成映射所需要的参数是

2021-05-22 22:42:44 182

原创 《MonoDepth2:Digging Into Self-Supervised Monocular Depth Estimation》论文笔记

参考代码:monodepth21. 概述导读:由于图片的准确深度信息获取的代价是比较大的,因而使用带有标注的数据去训练会存在较大的成本。因此近来自监督的方法吸引了较多研究者的注意,本篇文章研究的是单目下的自监督深度估计问题,基于经典的计算机视觉原理,文章将深度估计任务划分为两个子功能模块:1)从目标图像(target image)通过编解码网络获取深度信息;2)从源图像(source images)和目标图像组成的图像对中去估计出该图像对之间的变换关系(由旋转和平移组成的6维度变换状态);为了更

2021-05-19 00:30:14 143

原创 《VPS:Video Panoptic Segmentation》论文笔记

参考代码:vps1. 概述导读:文章的这篇文章整合了全景分割(实例分割+语义分割)和视频分割算法,从而得到在视频场景下的全景分割算法。其算法是构建在Mask RCNN/ MaskTrack RCNN/ UPSNet的基础之上,但是在这个基础之上文章还强调了视频时序中信息的萃取(spatial-temporal attention),从而增加了视频中实例的分割性能鲁棒性(也就是文章中提到的pixel level fusion)。针对文章的任务,作者在全景分割的基础上提出了视频场景下的性能评价指标VPQ(

2021-05-06 22:57:50 159 4

原创 《UPSNet:A Unified Panoptic Segmentation Network》论文笔记

参考代码:UPSNet1. 概述导读:在这篇文章中提出了一种端到端的全景分割方法,其在Mask RCNN的基础上通过添加一个语义分割分支,之后使用一个无参数的全景分割预测头使用之前预测头的输出(指的是使用了这部分的参数)经过整合实现全景分割。为了解决语义分割和实例分割之间的冲突,文章在全景分割的预测结果中添加一个未知的类别(文中指出是按照规则选择一定的比例实例作为未知类别),从而使得其在性能指标上表现更佳。全景分割解决的是实例分割/语义分割融合的方法,这篇文章中将全景分割的目标是否可数性质划分为两

2021-05-06 22:54:25 106 2

原创 《MaskTrackRCNN:Video Instance Segmentation》论文笔记

参考代码:MaskTrackRCNN1. 概述导读:这篇文章是字节的大佬开辟的一个新坑——视频实例分割(Video Instance Segmentation),其完成的任务是在一个视频序列里面实现所有定义的实例目标的检测/分割/跟踪。这篇文章是在Mask RCNN的基础上通过添加一个额外的track head实现的。这篇的核心贡献主要有两点:提供了在视频实例分割下不同实例之间构建相似矩阵并进行训练的方法以及公开了一个名为Youtube-VIS的数据集。但是文章的方法只使用到了很少的视频时序信息更多的

2021-04-19 01:06:19 280

原创 《IOG:Interactive Object Segmentation with Inside-Outside Guidance》论文笔记

参考代码:Inside-Outside-Guidancepaper数据集:Pixel-ImageNet1. 概述导读:这篇文章提出了一种新的交互式分割算法,其通过inside-outside guidance(IOG)引导分割网络生成更加精细的分割结果(也就是目标bounding box的左上和右下两个顶点和目标中心的点)。inside guidance是指目标区域的中心位置的点,用以标明前景信息,而outside guidance是目标区域之外的点,用以标明背景信息。这样进行交互引导的好处体现为:

2021-04-07 00:15:09 323

原创 《PIoU Loss:Towards Accurate Oriented Object Detection in Complex Environments》论文笔记

参考代码:piou1. 概述导读:旋转矩形框的引入可以更好贴合目标的轮廓,一般是在水平矩形框的基础上添加一个旋转变量,之后通过诸如smooth L1损失函数进行约束,但是这样的约束方式并不能很好反应实际检测结果与GT的重合关系(IoU),特别是在一些长宽比例比较大的时候。对此文章从像素点的角度进行统计,从而计算出预测框与GT的交叠面积,文章将其称之为PIoU(pixels-IoU)。由于文章的PIoU是逐点进行计算的,因此其可以使用在水平框和旋转矩形框的场景上,其对于旋转框的定位具有较好的优化作用,特

2021-04-07 00:12:35 71

原创 《HRNet-OCR:Object-Contextual Representations for Semantic Segmentation》论文笔记

参考代码:HRNet-OCR1. 概述导读:这篇文章研究了语义分割中上下文信息的提取与表达,其方法设计的灵感来自于:分割中一个像素的label是其对应目标(object)的类别,那么基于此文章便是通过不同object区域的表达去关联并表达一个像素(特征图上)的信息,从而建立更加具有区分性质的上下文信息。对此完成该目的需要3个步骤:1)通过在GT的监督训练下得到图片的分割结果;2)在分割结果的基础上按照分割的类别划分区域(对应文章的object),使用区域中像素去计算区域的表达(OCR,Object

2021-04-03 15:08:06 340 1

原创 《Reviving Iterative Training with Mask Guidance for Interactive Segmentation》论文笔记

参考代码:ritm_interactive_segmentation1. 概述导读:这篇文章提出了一种无需back propagation的交互式分割方法,只需要提供简单的点击进行分割,在一次点击交互性能不满足的情况下还可以使用上一次的预测mask加上当前次的点击交互进行弥补。这篇文章于一般来讲的交互式分割方法差异不大(都是在分割网络的基础上进行改进而来),但是在细节的处理上比较恰当,如交互先验信息的引入方式/损失函数优化/交互先验信息如何融合等进行了讨论。此外,训练数据的质量和数据量也是影响性能的很

2021-04-03 12:44:24 185

AForge录制视频Demo

该Demo实现了基本的AForge录制视频等功能。

2017-03-16

Windows创建进程例程

其中包含了四种创建进程的方法例子,如WinExec、CreateProcess等

2017-06-04

图像放大waifu2x算法vs opencv实现

在原来git仓库的基础上对其进行了精简,使用vs2013与opencv3进行包装得到这个demo工程。

2018-06-06

多帧Dcm图像

里面包含30张彩色的多帧Dcm图像,这里仅供用作开发测试用途

2016-11-28

一维搜索Matlab代码

这是0.618方法实现的一维搜索Matlab代码,可以按照自己的目标函数进行修改

2017-05-10

Affine SIFT Demo

这是在论文网站上找到的源码经过OpenCV包装的Demo,提供了类似OpenCV中检测接口,只是作为Demo查看检测效果使用,故功能不够完善。

2018-01-03

WM_COPYDATA消息进程通信

使用WM_COPYDATA实现进程通信的实例

2017-06-06

C#导出到Excel

导出到Excel表格功能,

2017-05-18

匿名管道通信例子

使用MFC实现的匿名管道通信的例子

2017-06-05

何教授去雾算法个人调试版本

这是个人对何教授的文章研读之后,根据自己的想法写的程序,难免有不妥的地方,请看官见谅。实测(cv类型)8UC3和16UC1类型的图像调试通过。

2016-07-26

Dicom彩色&灰度测试图片

里面包含测试仅限开发测试用途的Dicom图片,灰度图片和彩色图片各一张(彩图有已经转换为BMP的效果图)

2016-11-10

AForge离线文档

在该文档中包含了基本的API的使用说明和示例。

2017-03-16

AForge.NET Framework-2.2.5-(libs only)

这是AForge官网上提供的lib库,直接添加到C#工程就可以使用。

2017-03-16

Opencv调试看图插件

2016-10-27

Opencv调试插件

双击安装该插件,在视图的其它窗口之中打开该插件,就可以在调试中显示cv::Mat图像数据

2016-11-10

Log4net.dll

强大的日志工具

2016-09-13

m_buddy的留言板

发表于 2020-01-02 最后回复 2020-01-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除