CVPR2023点云相关文献合集,重磅来袭!

论文题目:LiDAR2Map: In Defense of LiDAR-Based Semantic Map Construction Using Online Camera Distillation

作者:Song Wang ;Wentong Li;Wenyu Liu等人

作者机构:Zhejiang University(浙江大学);

论文链接:https://arxiv.org/pdf/2304.11379.pdf

项目代码:https://github.com/songw-zju/LiDAR2Map

BEV视角下的语义地图构建在自动驾驶领域中起着重要的作用。本文提出了一种基于激光雷达的方法,可通过引入BEV特征金字塔解码器,学习鲁棒的多尺度BEV特征,从而大大提高基于激光雷达的方法的准确性。为了缓解激光雷达数据缺乏语义线索而导致的问题,本文提出了在线相机到激光雷达蒸馏方案以促进从图像到点云的语义学习。实验结果表明,该方法在语义地图构建方面比以前的基于激光雷达的方法提高了27.9% mIoU,并且表现优于最先进的基于相机的方法。

论文题目:Hierarchical Supervision and Shuffle Data Augmentation for 3D Semi-Supervised Object Detection

作者:Chuandong Liu; Chenqiang Gao;Fangcen Liu等人

作者机构:School of Communication and Information Engineering, Chongqing University of Posts and Telecommunications, Chongqing, China(重庆邮电大学通信与信息工程学院);Chongqing Key Laboratory of Signal and Information Processing, Chongqing, China(重庆市信号与信息处理重点实验室)等

论文链接:https://arxiv.org/pdf/2304.01464.pdf

项目代码:https://github.com/azhuantou/HSSDA

3D目标检测器通常需要大规模高质量的3D标注数据进行训练,而这样的数据收集通常昂贵而费时。本文提出了一种半监督学习的方法(HSSDA),该方法利用有限的标注样本和丰富的无标注样本进行学习。相比于基于伪标注的SSL目标检测方法,本文所提出的教师-学生框架采用动态双阈值策略生成监督信号,从而为学生网络生成更合理的监督并解决了混淆监督的问题。此外,shuffle数据增强策略被引入以增强学生网络的特征表示能力。实验证明,HSSDA在不同数据集上解决了标注成本高昂的问题,并在性能上优于最先进的方法。

论文题目:3D Semantic Segmentation in the Wild: Learning Generalized Models for Adverse-Condition Point Clouds

作者:Aoran Xiao; Jiaxing Huang;Weihao Xuan等人

作者机构:Nanyang Technological University(南洋理工大学);Waseda University (早稻田大学);Technical University of Denmark(丹麦技术大学)等

论文链接:https://arxiv.org/pdf/2304.00690.pdf

项目代码:https://github.com/xiaoaoran/SemanticSTF

稳健的点云解析对自动驾驶中的Level-5自主驾驶至关重要。然而,如何学习通用的3D语义分割(3DSS)模型却往往被忽略。本文介绍了一个逆境天气点云数据集SemanticSTF,提供了密集的点级注释,允许研究各种恶劣的天气条件下3DSS。我们还研究了两种不同的全天候3DSS建模方法,其中一个是域自适应的3DSS,另一个是域泛化的3DSS。本文还设计了一种域随机化技术,从而提高在各种恶劣天气条件下3DSS的性能。实验展示了SemanticSTF数据集在3DSS研究中的重要价值,并为未来的相关研究方向提供了新的思路。

论文题目:Understanding the Robustness of 3D Object Detection with Bird's-Eye-View Representations in Autonomous Driving

作者:Zijian Zhu; Yichi Zhang;Hai Chen等人

作者机构:Institute of Image Communication and Network Engineering, Shanghai Jiao Tong University (上海交通大学图像通信与网络工程研究所);Dept. of Comp. Sci. and Tech., Institute for AI, THBI Lab, BNRist Center, Tsinghua University(清华大学计算机科学与技术系,人工智能研究院,THBI实验室,BNRist中心)等

论文链接:https://arxiv.org/pdf/2303.17297.pdf

3D目标检测在自动驾驶中是关键性的。使用Bird's-Eye-View(BEV)表示法可以显著提高3D检测器的性能。然而,本文仍需要更深入的了解BEV模型的强健性,这与自动驾驶系统的安全密切相关。本文通过广泛的实验,发现BEV模型相对于先前的方法更稳定,但更容易受到对抗性噪声的影响,这提醒着BEV检测器在应用中的安全问题,并有助于开发更具鲁棒性的模型。

论文题目:PartManip: Learning Cross-Category Generalizable Part Manipulation Policy from Point Cloud Observations

作者:Haoran Geng ; Ziming Li;Yiran Geng等人

作者机构:CFCS, Peking University  (北京大学计算机前沿技术研究院);School of EECS, Peking University(北京大学电子工程与计算机科学学院)等

论文链接:https://arxiv.org/pdf/2303.16958.pdf

项目代码:https://github.com/PKU-EPIC/PartManip

项目主页:https://pku-epic.github.io/PartManip/

为了更好地使具有行为能力的智能体在复杂的真实场景中操作物体,在本文中,作者建立了一个大规模的基于部件跨类别物体操作基准测试PartManip。通过使用提出的部件感知奖励和基于部件的规范化训练一个状态专家,并将其知识转换为基于视觉的学生,同时,引入域对抗学习进行域不变特征提取以实现跨类别的泛化性。实验证明,作者的学习策略可以大大优于其他方法,并在未知的物体类别上具有出色的性能,同时也可以成功地应用于真实世界。

论文题目:NerVE: Neural Volumetric Edges for Parametric Curve Extraction from Point Cloud

作者:Xiangyu Zhu; Dong Du;Weikai Chen等人

作者机构:SSE, CUHKSZ(香港中文大学(深圳)理工学院);FNii, CUHKSZ(香港中文大学(深圳)未来智联网络研究院)等

论文链接:https://arxiv.org/pdf/2303.16465.pdf

项目代码:https://github.com/dongdu3/NerVE

项目主页:https://dongdu3.github.io/projects/2023/NerVE/

从点云中提取参数化边缘曲线是3D视觉和几何处理中的一个基本问题。为了解决在先前点级方法中检测到嘈杂输出的问题,本文提出了一个直接检测结构化边缘的方法NerVE,它可以通过体积学习框架轻松地完成学习,并可以转换为通用的分段线性曲线表示法。由于NerVE编码了丰富的结构信息,因此基于NerVE的边缘提取可以简化为一个简单的图搜索问题,从而可以获得参数曲线。在ABC数据集上的实验结果表明,本文方法可以显著优于以往的最先进方法。

论文题目:Binarizing Sparse Convolutional Networks for Efficient Point Cloud Analysis

作者:Xiuwei Xu;  Ziwei Wang;Jie Zhou等人

作者机构:Department of Automation, Tsinghua University, China(清华大学自动化系);Beijing National Research Center for Information Science and Technology, China(北京信息科学与技术国家研究中心)等

论文链接:https://arxiv.org/pdf/2303.15493.pdf

本文提出了BSC-Net,这是一种具有二值稀疏卷积网络的新型神经网络,专门用于点云分析。相比于传统的网络量化方法,BSC-Net采用优化卷积操作子集的方法缓解量化误差,与真值卷积神经网络的性能差距显著缩小,并超越了当前的网络二值化方法。

论文题目:VL-SAT: Visual-Linguistic Semantics Assisted Training for 3D Semantic Scene Graph Prediction in Point Cloud

作者:Ziqin Wang; Bowen Cheng;Lichen Zhao等人

作者机构:School of Software, Beihang University(北航软件学院);The University of Hong Kong(香港大学)等

论文链接:https://arxiv.org/pdf/2303.14408.pdf

项目代码:https://github.com/wz7in/CVPR2023-VLSAT

本文提出了VL-SAT方案,在从点云中预测3D语义场景图的任务中,通过训练强大的多模态oracle模型来辅助3D模型,实现对尾部和模棱两可的语义关系进行准确预测。通过在训练中有效利用视觉-语言语义,VL-SAT可以显著提高常见的3DSSG预测模型的性能,尤其在处理尾关系三元组时。全面的实验验证了该方案的有效性。

论文题目:MSF: Motion-guided Sequential Fusion for Efficient 3D Object Detection from Point Cloud Sequences

作者:Chenhang He; Ruihuang Li;Yabin Zhang等人

作者机构:The Hong Kong Polytechnic University(香港理工大学)

论文链接:https://arxiv.org/pdf/2303.08316.pdf

项目代码:https://github.com/skyhehe123/MSF

本文提出了VL-SAT方案,在从点云中预测3D语义场景图的任务中,通过训练强大的多模态oracle模型来辅助3D模型,实现对尾部和模棱两可的语义关系进行准确预测。通过在训练中有效利用视觉-语言语义,VL-SAT可以显著提高常见的3DSSG预测模型的性能,尤其在处理尾关系三元组时。全面的实验验证了该方案的有效性。

论文题目:PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D Object Detection

作者:Anthony Chen; Kevin Zhang;Renrui Zhang等人

作者机构:National Key Laboratory for Multimedia Information Processing(北京大学国家重点实验室);Peking University(北京大学)等

论文链接:https://arxiv.org/pdf/2303.08129.pdf

项目代码:https://github.com/BLVLab/PiMAE

本研究主要针对点云和RGB图像这两种经常一起出现的模态,提出了一个掩码自编码器先预训练的框架PiMAE。通过遮盖策略、共享解码器和跨模态重建模块等措施,促进了这两种模式之间的交互作用,在多项实验中获得了不错的结果。这个框架可以用于场景理解和物体识别等相关任务。

论文题目:MVImgNet: A Large-scale Dataset of Multi-view Images

作者:Xianggang Yu; Mutian Xu;Yidan Zhang等人

作者机构:SSE, CUHKSZ(香港中文大学(深圳)理工学院);FNii, CUHKSZ(香港中文大学(深圳)未来智联网络研究院)等

论文链接:https://arxiv.org/pdf/2303.06042.pdf

项目主页:https://gaplab.cuhk.edu.cn/projects/MVImgNet/

本研究引入了MVImgNet,这是一个通过人们日常生活中拍摄真实物体的视频来高效获得的大规模多视角图像数据集,具有3D感知信号,是2D和3D视觉的软桥梁。通过MVImgNet进行的试验表明它在多种3D和2D视觉任务中具有很高的潜力。此外,通过MVImgNet的密集重建,还得到了一个3D物体点云数据集MVPNet,它为真实世界的3D物体分类带来好处,同时对点云理解提出了新的挑战。MVImgNet和MVPNet将公开发布。

论文题目:LoGoNet: Towards Accurate 3D Object Detection with Local-to-Global Cross-Modal Fusion

作者:Xin Li; Tao Ma;Yuenan Hou等人

作者机构:East China Normal University (华东师范大学);The Chinese University of Hong Kong(香港中文大学)等

论文链接:https://arxiv.org/pdf/2303.03595.pdf

项目代码:https://github.com/sankin97/LoGoNet

本研究提出了一种新的Local-to-Global融合网络(LoGoNet),它执行LiDAR-相机融合并在本地和全局两个级别上进行。全局融合(GoF)采用了以前的文献,并巧妙地使用点重心以更好地进行跨模态对齐,并提出了局部融合(LoF)和特征动态聚合(FDA)模块来最大限度地利用上下文信息,从而生成更具信息量的多模态特征。在Waymo和KITTI数据集上进行的实验证明了这种方法的优越性,并在Waymo 3D物体检测排行榜上取得了第一名。

论文题目:ProxyFormer: Proxy Alignment Assisted Point Cloud Completion with Missing Part Sensitive Transformer

作者:Shanshan Li; Pan Gao;Xiaoyang Tan等人

作者机构:College of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics(南京航空航天大学计算机科学与技术学院)

论文链接:https://arxiv.org/pdf/2302.14435.pdf

项目代码:https://github.com/I2-Multimedia-Lab/ProxyFormer

本文提出了一种新的点云完成方法ProxyFormer,它通过点代理相互传递信息,从现有点云的特征生成缺失点的特征,并设计了一种缺失部分敏感的变形器来改进缺失代理。实验结果表明,该方法在多个基准数据集上优于最新的完成网络,并具有最快的推理速度

论文题目:NeuMap: Neural Coordinate Mapping by Auto-Transdecoder for Camera Localization

作者:Shitao Tang; Sicong Tang;Andrea Tagliasacchi等人

作者机构:Simon Fraser University(西门菲莎大学)

论文链接:https://arxiv.org/pdf/2211.11177.pdf

项目代码:https://github.com/Tangshitao/NeuMap

本文提出了一种名为NeuMap的端到端神经映射方法,它使用基于Transformer的自动解码器对查询点的3D坐标进行回归,并结合了特征匹配和坐标回归方法的优点,实现了对场景信息的高效压缩和更好的鲁棒性。实验结果表明,NeuMap在坐标回归方面显著优于其他方法,并且在需要更小的场景表示尺寸的同时实现了与特征匹配方法相媲美的性能。

论文题目:LidarGait: Benchmarking 3D Gait Recognition with Point Clouds

作者:Chuanfu Shen; Fan Chao;Wei Wu等人

作者机构:Department of Industrial and Manufacturing Systems Engineering, The University of Hong Kong(香港大学工程学院);Department of Computer Science and Engineering, Southern University of Science and Technology(南方科技大学工程学院)

论文链接:https://arxiv.org/pdf/2211.10598.pdf

项目主页:https://lidargait.github.io/

此研究提出了一种基于点云来探索精确的3D步态特征的新方法,并构建了第一个大规模的基于LiDAR传感器和RGB相机收集的步态识别数据集SUSTech1K。实验结果表明,3D结构信息是步态识别的显著特征,LidarGait相对于现有的基于点和基于轮廓线的方法表现出显著优势,并提供了稳定的跨视角结果。

论文题目:EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual Grounding

作者:Yanmin Wu; Xinhua Cheng;Renrui Zhang等人

作者机构:Shenzhen Graduate School, Peking University, China(深圳大学城北京大学深圳研究生院);The Chinese University of Hong Kong, China 3 Shanghai AI Laboratory, China(中国香港中文大学)

论文链接:https://arxiv.org/pdf/2209.14941.pdf

项目主页:https://github.com/yanmin-wu/EDA

本文提出了EDA,一种显式解耦文本属性并对细粒度语言和点云对象进行密集对齐的新方法。通过实验,在两个广泛采用的3D视觉基础数据集ScanRef和SR3D / NR3D上取得了最先进的性能,并在新提出的视觉基础任务上取得了绝对领先地位。

论文题目:PointVector: A Vector Representation In Point Cloud Analysis

作者:Xin Deng; WenYu Zhang;Qing Ding等人

作者机构:University of Science and Technology of China(中国科学技术大学)

论文链接:https://arxiv.org/pdf/2205.10528.pdf

本文提出了一种向量为导向的点集抽象方法,用于解决标准MLP 在提取局部特征方面受到限制这一问题。提出的PointVector模型在S3DIS数据集上实现了最新的72.3% mIOU和78.4% mIOU表现,其模型参数仅为PointNeXt的58%,在有效性方面表现出众。

  • 8
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值