计算机视觉
文章平均质量分 78
图像处理、深度学习
达闻东
这个作者很懒,什么都没留下…
展开
-
自动驾驶场景下的光流增强的语义分割网络
运动是自动驾驶系统的主要线索(dominant cue)。光流经常用于检测移动物体和用三角化估计深度。在本篇文章中,我们的动机是利用现有的稠密光流来提高语义分割的表现。为了提供系统性的研究,我们搭建了四种不同的架构,一种只用了RGB图,一种只用了flow,一种将RGBF拼接在一起,一种是以双流的方式利用RGB和flow。我们在两个自动驾驶数据集上(Virtual KITTI, Cityscapes)评估这些网络,其中用到了最前进的光流估计器FlowNet v2。原创 2023-03-17 15:47:45 · 339 阅读 · 0 评论 -
Flownet: 用深度网络学习光流
卷积神经网络(CNNS)在各种计算机视觉任务中非常成功,特别是那些与识别相关的任务。光流估计也是CNNs成功的领域之一。在本文中,我们以监督学习的方式构建了一个CNNs用来解决光流估计问题。我们提出并比较了两种架构:一种是通用的架构,另一种则包含了一层不同图像位置特征向量关联层。因为当前的GT数据集的规模不够用来训练一个CNN,我们构建了一个大规模的合成数据集Flying Chairs dataset。原创 2023-03-17 15:47:07 · 1705 阅读 · 0 评论 -
FlowFusion: 基于光流法的动态稠密RGB-D SLAM
动态的环境对于视觉SLAM来说是很有挑战性的因为运动的物体会遮挡静态环境特征,并且导致错误的相机运动估计。在这篇文章中,我们提出了一个新的稠密的RGB-D SLAM方案,它可以同时完成动态/静态分割和相机自我运动估计,以及静态背景重建。我们的新颖之处在于用光流残差来突出(highlight)RGB-D点云中的动态语义,同时为相机追踪和背景重建提供更多精确和有效的动态/静态分割。原创 2023-03-17 15:45:56 · 890 阅读 · 0 评论 -
U-Net: 用于生物医学图像分割的卷积网络
成功的深度网络训练要求有数千张标注(annotated)的训练样本。在这篇文章中,我们提出了一个网络和训练策略,该策略基于对数据增强的充分利用,从而使得可获得的标注样本的使用更加有效。网络架构包含constracting path来获取上下文(context)和一个对称的expanding path来实现精确的像素定位。我们展示的这个网络可以用非常少的图片端对端训练,并且在ISBI挑战中优于先前最好的方法(一种滑窗神经网络)。原创 2023-03-17 15:42:56 · 90 阅读 · 0 评论 -
LibTorch: 用C++运行深度神经网络
1.概述深度学习领域的盆友们想必对PyTorch不陌生,作为近些年来深度学习框架中的佼佼者,PyTorch在学术领域攻城略地。但该框架的实际名字应该是Torch,而PyTorch只是Torch的Python版本,相应地,也有一个C++版本,称为LibTorch。那LibTorch有什么用呢?别急,我们先讲讲TorchScript吧。在Torch中提供了TorchScript的方法,可以将nn.Module的子类转化为一种中间模型,也即ScriptModule,该模型存储在磁盘后,可以被PyTorc..原创 2021-07-27 00:38:28 · 1391 阅读 · 1 评论 -
编码器-解码器架构
编码器-解码器原创 2022-03-08 11:01:19 · 1247 阅读 · 0 评论 -
上采样、转置卷积、反卷积、反池化,傻傻分不清
下采样、转置卷积、反卷积、下池化,傻傻分不清原创 2022-03-11 10:27:24 · 5096 阅读 · 0 评论 -
SSD:Single Shot Detection
单发多框检测(SSD)BaseNet: 作为主干多个VGG块串联:用于feature map减半,生成多尺度的feature map,并扩大通道数BaseNet和VGG都会有三个输出:即类别预测层,bounding box(偏移)预测层和生成锚框(生成锚框其实并不网络输出,这是这样表示更容易看懂)假设每个VGG和BaseNet的输出feature map尺寸为(通道数,h,w),每个像素生成的锚框数目为a,类别数目为q,加上背景为(q+1)。如果采用全连接层做最后的输出,参数会非常多,并且输入的原创 2022-03-08 11:15:17 · 348 阅读 · 0 评论