点云文章
论文 | 简介 | 关键词 |
---|---|---|
【CVPR 2022】Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point Modeling | 基于掩码建模的点云自注意力模型预训练 | BERT |
【CVPR 2020】Global-Local Bidirectional Reasoning for Unsupervised Representation Learning of 3D Point Clouds | Local-to-Global Reasoning 和 Global-to-Local Reasoning | 双向:局部到全局,全局到局部 |
【CVPR 2022】Crafting Better Contrastive Views for Siamese Representation Learning | ContrastiveCrop能够为对比学习提供语义信息一致而差异性更大的样本对,从而提升对比学习表征的泛化性 | 为对比学习设计了新的裁剪策略 |
CVPR 2022 | Point-BERT: 基于掩码建模的点云自注意力模型预训练 - 作者亲讲:https://zhuanlan.zhihu.com/p/484336830
highlight:
- 在这一步中,我们通过最远点采样与kNN去将点云分成N个局部点云,这些局部点云包含了细节的局部几何信息与结构。为了将这些局部结构编码成为如语言中的“词汇”,我们设计了Tokenizer去进行点云到“词汇”的转换,并在Tokenizer之后接上Decoder构成Discrete VAE (dVAE (?)),通过进行局部点云重建任务的方式来训练该Tokenizer。
- 为了同时保证Transformers对语义信息的学习,我们也加入了Class Token,来输出点云的全局特征,并加入对比学习损失进行监督。
- 为了增强样本的多样性,我们设计了一种Point Patch Mixing(?)的方法生成更多的训练样本。
Global-Local Bidirectional Reasoning for Unsupervised Representation Learning of 3D Point Clouds(CVPR2020):https://zhuanlan.zhihu.com/p/136485277
highlight:
- Local-to-Global Reasoning:作者将该过程视为自监督的度量学习问题,即最小化:其中, f i l f_{i}^{l} fil 为pointnet++的l-th SA层中的i-th采样点周围的局部特征,g为整个点云的全局特征,由于这两种特征的维度不等,故通过 φ l φ^{l} φl 和φ(MLP)将他们嵌入到相同的特征空间上,但该式可能会使得所有的输入都映射为一个常数值,因此为了让某一目标的局部特征嵌入靠近其全局特征嵌入而远离其他目标的全局特征嵌入,定义如下loss:
- Global-to-Local Reasoning:由于Local-to-Global Reasoning是为了让object的局部和全局表征尽可能地相似,因此作为监督信号的全局特征便非常重要了,即如果目标的全局表征学习的很好的话,也给目标的局部表征提供了鲁棒的监督,这样得到的local和global的双向学习才能够形成一个良性的循环。为了更好地学习目标的全局特征,作者采用了Self-Reconstruction和Normal Estimation两种方式:
(1)Self-Reconstruction/point autoencoding
(2)Normal Estimation
CVPR 2022 | 即插即用!助力自监督涨点的ContrastiveCrop开源了!
highlight:
关注作者:丁霄汉 THU 计算机视觉博士生,结构重参数化?(结构的等效替代?模型压缩)
这两个工作的共同点在于用了结构重参数化技术,“重参数化宇宙”已经初具雏形:结构A对应一组参数X,结构B对应一组参数Y,如果我们能将X等价转换为Y,就能将结构A等价转换为B。同样思想的还有ACNet(ICCV-2019)和ResRep(去年做的一个剪枝方法,Res50无损压缩超过50%,也就是说从76.15%的标准模型压到76.15%,真正意义的无损)。
总的来说,我相信重参数化是很有搞头的,既可暴力提性能,也可无损搞压缩,还能简单搭架构,肯定还有很多东西可以挖掘。
相关工作:
RepLKNet作者解读:超大卷积核,大到31x31,越大越暴力,涨点又高效!(CVPR 2022)
ResRep:剪枝SOTA!用结构重参数化实现CNN无损压缩(ICCV)
热点讨论:MLP,RepMLP,全连接与“内卷”
结构重参数化:利用参数转换解耦训练和推理结构
RepVGG:极简架构,SOTA性能,让VGG式模型再次伟大(CVPR-2021)
知乎- 丁霄汉 THU 计算机视觉博士生:https://www.zhihu.com/people/ding-xiao-yi-93/posts
资料来源
知乎- 丁霄汉 THU 计算机视觉博士生:https://www.zhihu.com/people/ding-xiao-yi-93/posts
CVer计算机视觉:https://www.zhihu.com/column/c_1285538965131460608