是大杨杨啊-CSDN博客

原创 Cooler-ChiC阅读

CVPR 2024大多数神经压缩模型都是在大规模图像或视频数据集上进行训练，为了更强的泛化性。提出C3，将一个小模型分别过拟合到单个图像或视频中，而不是将一个大模型泛化到所有图像或视频。C3的解码复杂度比具有相似RD性能的基线低一个数量级。用MAC(multiply-accumulate：乘法累加)操作的次数衡量解码的复杂度。

2024-07-27 20:53:25 400

原创 Extreme Video Compression with Pre-trained Diffusion Models阅读

发表的期刊没找到。利用扩散生成模型的预测能力，提出一种极端视频压缩的新方法，以实现在低比特率下视觉上令人满意的重构。模型取若干压缩帧，并生成后续帧。当重建质量下降到期望水平以下时，对新帧进行编码，重新开始预测。

2024-07-22 17:24:27 772

原创 Inf-DiT阅读

ECCV2024用扩散模型做任意分辨率的图像上采样。

2024-07-20 15:45:24 827

原创 CAVSR阅读

CVPR 2023视频超分辨率（VSR）常用来对压缩后的视频进行重建，经常利用低分辨率(LR)帧内的互补时间信息恢复出一序列高分辨率(HR)帧。点云上采样采用冗余的空间信息，可以类比？但不同的压缩视频有不同的压缩参数，实验设置与实际应用之间的性能差距很大，不能自适应地处理各种不同的压缩级别。为此提出了一种新颖且实用的压缩感知视频超分辨率模型，使其视频增强过程适应估计的压缩级别。

2024-07-16 19:32:38 1000

原创 Density-preserving阅读

CVPR 2022局部密度非常重要。现有方法的一个典型策略是在压缩前对点进行体素化。显然它显然失去了局部密度，且精度受限于体素大小。如上图所示，忽略局部密度会出现均匀分布(G-PCC)和聚集点(Depoco)等伪影，导致重建效果变差，尤其是在bpp较低时。

2024-06-26 12:52:10 655

之前文章的sdf都是离散的，只能得到固定网格位置的sdf值，想要得到随意位置的sdf值需要对当前位置的邻居的sdf值进行采样。DeepSDF用神经网络拟合SDF函数。由于神经网络的拟合性质，能够预测任意位置的sdf值。在DeepSDF表示单个物体的基础上提出Auto-decoder架构，实现重建某一类形状的任务，将模型大小减少了一个数量级。针对给定的目标形状训练单个深度网络。给定目标形状，准备一组由3D点及其SDF值组成的组X。对于输入三维坐标x，得到当前位置处的SDF值s，组成X对。

2024-05-23 19:57:42 306 1

原创 HNeRV阅读

1.位置嵌入没有与框架的内容相结合，内容不可知。2.模型参数分布不均，靠后层(接近输出)比靠前层(接近嵌入)具有更少的参数。这也是隐式表达共同的缺点：以牺牲可泛化性为代价，具有简单性。

2024-04-25 16:40:01 299 1

原创 NeRV阅读

传统方式将视频表示为帧序列。NeRV创新性的将视频表示为以帧索引为输入的隐式神经网络。像素级表示对于输入的每个坐标输出每个像素的RGB。NeRV对于输入的每个时间帧t输出整幅图像。在时间t处的一帧，θ参数化的函数f。NeRV在解码速度上表现出了极大的优势。NeRV使用MLP+卷积网络架构输出图像，而像素级表示使用简单的MLP输出像素的RGB值。

2024-04-25 16:39:08 288 1

原创 Point Transformer V3阅读

不创新注意力机制，而是权衡现有的准确性和效率(利用scale的力量)。模型性能更多受到规模的影响，而不是复杂的设计。将simple和efficient置于某些机制的准确性之上，从而实现可扩展性，而这些机制在scale后对整体性能来说是次要的。实现了显著的缩放，将感受野从16扩展到1024点，同时很高效(相比于其前身PTv2 ,处理速度提高了3倍,内存效率提高了10倍)。

2024-04-19 21:41:07 1031

原创 Checkerboard Context Model阅读

以往的方法大多采用基于掩码卷积的自回归模型，极大地提高了模型的性能，但由于严格的解码顺序，解码速度随特征图的大小指数增加。为了并行化熵模型，提出了一种两阶段的上下文模型。最快情况两步即可解码所有隐特征。用随机掩码对各种上下文模型进行分析，比较不同上下文位置对节省比特率的作用。从sampling space中随机采取不同的掩码格式(黑色表示采用该位置的信息，白色表示用掩码进行隐藏)应用到图片中，评估最后的比特大小。量化节省比特率的能力，定义为码率节省比。

2024-04-08 11:33:23 312

原创 MuSCLE阅读

以往的点云压缩大多只使用了点云的三维位置信息(8位的占用位)，很少关注其他属性,如雷达强度等。将这些属性与位置信息一起压缩可以对减少存储产生积极影响。利用多次LiDAR扫描之间的相关性进行时间上的建模。

2024-04-08 11:31:56 370

原创 OctSqueeze阅读

提出一种新的深度压缩算法来减少点云的内存占用。利用点之间的稀疏性和结构冗余来降低比特率。先利用高效且自适应的八叉树结构来获得原始点云的初始编码。然后在树的每个中间节点上学习一个树结构的深度条件熵模型，结合场景的先验上下文来帮助预测节点符号。最后从熵模型中预测的概率被传递给编码器，将序列化的符号编码成最终的比特流。

2024-03-30 13:53:10 836

原创 OctFormer-Wang阅读

普通的注意力复杂度为O(N^2)，不可处理大规模的点云数据。使用窗口注意力，可将计算限制在非重叠的窗口内。控制每个窗口中的点数K，计算复杂度降到O(K^2*N/K)。但点云有稀疏性，窗口间的点数有很大的变化，无法在GPU上并行操作。提出了一种方法：在保持每个窗口中点(体素化后的整个叶结点)的数量恒定的同时，允许窗口的形状自由变化。用八叉树处理点云，再对同深度的八叉树节点用shuffled key进行排序。

2024-03-30 13:52:28 297

原创 DDPCC阅读

特征提取由两个串联的下采样块组成，用于分层减少空间冗余。用基于稀疏CNN的下采样块，进行低复杂度点云下采样。IRN(初始残差网络)用于局部特征分析和聚合。

2024-03-23 18:09:31 353 1

原创 DGCNN阅读

1.edgeconv：聚合邻域信息得到当前点特征2.动态更新图：一个点的邻居在网络的不同层之间发生变化。特征空间中的邻近度与输入的邻近度不同，信息在整个点云中的非局部扩散。通过动态更新图，感受野与点云的直径一样大，且稀疏。

2024-03-23 18:05:33 150 1

原创 OctFormer-Compression阅读

3D卷积或频繁的多头自注意力操作的方法会带来巨大的计算量。提出的OctFormer比VoxelContext节省17%的Bpp，比OctAttention节省99%解码时间。

2024-03-23 18:00:29 412

原创 Fast Point Transformer阅读

由于全局自注意力的运算成本较高，因此在3D视觉任务中是不可行的。目前基于注意力的方法都是将大规模场景划分为小区域，然后将局部预测结果结合在一起，但这涉及额外的预处理和后处理阶段，且由于局部视角的预测，还会降低准确率。网络分为三个部分：1.点云进行质心感知体素化2.用局部自注意更新特征3.体素块进行质心感知去体素化pn:点坐标,in:原始特征vi:体素坐标,fi:体素特征,ci:质心坐标pn:点坐标,on:输出特征。

2024-03-15 22:34:20 399 1

原创稀疏卷积理解

comoutation pipeline中的Rulebook错误:i_in没有2,所以11和13行内容要删除。build hash out table时，p out下面的(1,0),(2,0)对应位置错误。闵可夫斯基引擎采用的是submanifold output definition形式的卷积。基础内容参考：https://zhuanlan.zhihu.com/p/382365889。submanifold output definition样例中的输出都是A1+A2。只对一些错误进行修改。

2024-03-08 13:56:14 336

原创 MinkowskiEngine和pytorch3d库安装的坑

解决：将MinkowskiEngine目录中 setup.py 文件中的“cmdclass={“build_ext”: BuildExtension}”这一行改为“cmdclass={“build_ext”: BuildExtension.with_options(use_ninja=False)}”，pytorch默认使用ninjia作为backend，把它禁用掉就好了。pytorch3d一样。

2024-01-29 18:26:19 654 1

qq_49130177的博客

原创 HyperDiffusion阅读