论文解读
文章平均质量分 87
如果你也听说~
这个作者很懒,什么都没留下…
展开
-
I3D--视频理解必读论文总结
在视频理解领域,I3D是一篇不得不读的文章,在他之前,当时人的解决方案大多数是以双流网络为主进行视频分类。在UCF-101和HMDB-51数据集上进行测试对比结果,当I3D提出之后,基本上将UCF-101和HMDB-51数据集刷到顶峰了,同时,使得3DCNN在视频理解领域大放异彩,直到近几年VIT的出现,才有新的方向对视频理解领域进行推进;I3D也提出了一个新的数据集--Kinetics Dataset,之后的方法都需要在这个数据集上进行对比。原创 2023-05-16 20:46:02 · 1244 阅读 · 0 评论 -
PointAugmenting: Cross-Modal Augmentation for 3D Object Detection总结
现状:相机和 LiDAR 是两个互补的传感器,用于自动驾驶环境中的 3D 物体检测。摄像头提供丰富的纹理和颜色提示,而激光雷达则专注于相对距离感应。问题: 3D 目标检测的挑战在于有效融合 2D 相机图像与 3D LiDAR 点。原创 2023-02-19 19:38:52 · 643 阅读 · 0 评论 -
DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection总结
现状:激光雷达和摄像头是关键传感器,可为自动驾驶中的 3D 检测提供补充信息。问题:流行的多模式方法是简单的利用相机特征对原始激光雷达点云做decorate,但我们的研究表明,比起原始的数据,直接将相机的特征和深度雷达特征做融合可以达到更好的效果;然而由于这些特征经常被增强和聚合,融合的一个关键挑战是如何有效对齐两者模态转换后的特征。原创 2023-02-12 21:07:47 · 883 阅读 · 1 评论 -
TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers总结
现状:激光雷达(LiDAR)和相机是自动驾驶中3D物体检测的两个重要传感器。问题:尽管传感器融合在该领域日益普及,但对较差的图像条件(如恶劣的照明和传感器未对准)的鲁棒性不足。现有的融合方法很容易受到这些条件的影响,主要是由于校准矩阵建立的激光雷达点和图像像素的硬关联。原创 2023-02-09 22:01:06 · 975 阅读 · 0 评论 -
Multi-Task Multi-Sensor Fusion for 3D Object Detection总结
在本文中,我们建议利用多个相关任务来进行准确的多传感器 3D 对象检测。为实现这一目标,我们提出了一种端到端的可学习架构,该架构可以推理 2D 和 3D 对象检测以及地面估计和深度补全。我们的实验表明,所有这些任务都是互补的,并通过融合不同层次的信息帮助网络学习更好的表征。重要的是,我们的方法在 2D、3D 和鸟瞰图对象检测方面领先于 KITTI 基准,同时是实时的。原创 2023-02-08 21:55:31 · 291 阅读 · 0 评论 -
Waymo 数据集
现状:尽管获取具有代表性的现实世界数据需要大量资源,但研究界对自动驾驶研究的兴趣越来越大。问题:现有的自动驾驶数据集在它们捕获的环境的规模和变化方面受到限制,尽管操作区域内和操作区域之间的泛化对于技术的整体可行性至关重要。原创 2023-02-08 21:52:41 · 297 阅读 · 0 评论 -
ViLT解读记录
ViLT全称: Vision-and-Language Transformer Without Convolution or Region Supervision原创 2022-12-19 15:52:31 · 367 阅读 · 0 评论 -
clip-summary
CLIP论文总结原创 2022-12-08 21:51:01 · 619 阅读 · 0 评论