自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 HNeRV阅读

1.位置嵌入没有与框架的内容相结合,内容不可知。2.模型参数分布不均,靠后层(接近输出)比靠前层(接近嵌入)具有更少的参数。这也是隐式表达共同的缺点:以牺牲可泛化性为代价,具有简单性。

2024-04-25 16:40:01 261 1

原创 NeRV阅读

传统方式将视频表示为帧序列。NeRV创新性的将视频表示为以帧索引为输入的隐式神经网络。像素级表示对于输入的每个坐标输出每个像素的RGB。NeRV对于输入的每个时间帧t输出整幅图像。在时间t处的一帧,θ参数化的函数f。NeRV在解码速度上表现出了极大的优势。NeRV使用MLP+卷积网络架构输出图像,而像素级表示使用简单的MLP输出像素的RGB值。

2024-04-25 16:39:08 246 1

原创 Point Transformer V3阅读

不创新注意力机制,而是权衡现有的准确性和效率(利用scale的力量)。模型性能更多受到规模的影响,而不是复杂的设计。将simple和efficient置于某些机制的准确性之上,从而实现可扩展性,而这些机制在scale后对整体性能来说是次要的。实现了显著的缩放,将感受野从16扩展到1024点,同时很高效(相比于其前身PTv2 ,处理速度提高了3倍,内存效率提高了10倍)。

2024-04-19 21:41:07 440

原创 Checkerboard Context Model阅读

以往的方法大多采用基于掩码卷积的自回归模型,极大地提高了模型的性能,但由于严格的解码顺序,解码速度随特征图的大小指数增加。为了并行化熵模型,提出了一种两阶段的上下文模型。最快情况两步即可解码所有隐特征。用随机掩码对各种上下文模型进行分析,比较不同上下文位置对节省比特率的作用。从sampling space中随机采取不同的掩码格式(黑色表示采用该位置的信息,白色表示用掩码进行隐藏)应用到图片中,评估最后的比特大小。量化节省比特率的能力,定义为码率节省比。

2024-04-08 11:33:23 301

原创 MuSCLE阅读

以往的点云压缩大多只使用了点云的三维位置信息(8位的占用位),很少关注其他属性,如雷达强度等。将这些属性与位置信息一起压缩可以对减少存储产生积极影响。利用多次LiDAR扫描之间的相关性进行时间上的建模。

2024-04-08 11:31:56 364

原创 OctSqueeze阅读

提出一种新的深度压缩算法来减少点云的内存占用。利用点之间的稀疏性和结构冗余来降低比特率。先利用高效且自适应的八叉树结构来获得原始点云的初始编码。然后在树的每个中间节点上学习一个树结构的深度条件熵模型,结合场景的先验上下文来帮助预测节点符号。最后从熵模型中预测的概率被传递给编码器,将序列化的符号编码成最终的比特流。

2024-03-30 13:53:10 497

原创 OctFormer-Wang阅读

普通的注意力复杂度为O(N^2),不可处理大规模的点云数据。使用窗口注意力,可将计算限制在非重叠的窗口内。控制每个窗口中的点数K,计算复杂度降到O(K^2*N/K)。但点云有稀疏性,窗口间的点数有很大的变化,无法在GPU上并行操作。提出了一种方法:在保持每个窗口中点(体素化后的整个叶结点)的数量恒定的同时,允许窗口的形状自由变化。用八叉树处理点云,再对同深度的八叉树节点用shuffled key进行排序。

2024-03-30 13:52:28 249

原创 DDPCC阅读

特征提取由两个串联的下采样块组成,用于分层减少空间冗余。用基于稀疏CNN的下采样块,进行低复杂度点云下采样。IRN(初始残差网络)用于局部特征分析和聚合。

2024-03-23 18:09:31 338 1

原创 DGCNN阅读

1.edgeconv:聚合邻域信息得到当前点特征2.动态更新图:一个点的邻居在网络的不同层之间发生变化。特征空间中的邻近度与输入的邻近度不同,信息在整个点云中的非局部扩散。通过动态更新图,感受野与点云的直径一样大,且稀疏。

2024-03-23 18:05:33 142 1

原创 OctFormer-Compression阅读

3D卷积或频繁的多头自注意力操作的方法会带来巨大的计算量。提出的OctFormer比VoxelContext节省17%的Bpp,比OctAttention节省99%解码时间。

2024-03-23 18:00:29 352

原创 Fast Point Transformer阅读

由于全局自注意力的运算成本较高,因此在3D视觉任务中是不可行的。目前基于注意力的方法都是将大规模场景划分为小区域,然后将局部预测结果结合在一起,但这涉及额外的预处理和后处理阶段,且由于局部视角的预测,还会降低准确率。网络分为三个部分:1.点云进行质心感知体素化2.用局部自注意更新特征3.体素块进行质心感知去体素化pn:点坐标,in:原始特征vi:体素坐标,fi:体素特征,ci:质心坐标pn:点坐标,on:输出特征。

2024-03-15 22:34:20 351 1

原创 稀疏卷积理解

comoutation pipeline中的Rulebook错误:i_in没有2,所以11和13行内容要删除。build hash out table时,p out下面的(1,0),(2,0)对应位置错误。闵可夫斯基引擎采用的是submanifold output definition形式的卷积。基础内容参考:https://zhuanlan.zhihu.com/p/382365889。submanifold output definition样例中的输出都是A1+A2。只对一些错误进行修改。

2024-03-08 13:56:14 309

原创 MinkowskiEngine和pytorch3d库安装的坑

解决:将MinkowskiEngine目录中 setup.py 文件中的“cmdclass={“build_ext”: BuildExtension}”这一行改为“cmdclass={“build_ext”: BuildExtension.with_options(use_ninja=False)}”,pytorch默认使用ninjia作为backend,把它禁用掉就好了。pytorch3d一样。

2024-01-29 18:26:19 420

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除