自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 HyperDiffusion阅读

ICCV 2023。

2024-08-02 15:56:01 683

原创 Cooler-ChiC阅读

CVPR 2024大多数神经压缩模型都是在大规模图像或视频数据集上进行训练,为了更强的泛化性。提出C3,将一个小模型分别过拟合到单个图像或视频中,而不是将一个大模型泛化到所有图像或视频。C3的解码复杂度比具有相似RD性能的基线低一个数量级。用MAC(multiply-accumulate:乘法累加)操作的次数衡量解码的复杂度。

2024-07-27 20:53:25 400

原创 Extreme Video Compression with Pre-trained Diffusion Models阅读

发表的期刊没找到。利用扩散生成模型的预测能力,提出一种极端视频压缩的新方法,以实现在低比特率下视觉上令人满意的重构。模型取若干压缩帧,并生成后续帧。当重建质量下降到期望水平以下时,对新帧进行编码,重新开始预测。

2024-07-22 17:24:27 772

原创 Inf-DiT阅读

ECCV2024用扩散模型做任意分辨率的图像上采样。

2024-07-20 15:45:24 827

原创 CAVSR阅读

CVPR 2023视频超分辨率(VSR)常用来对压缩后的视频进行重建,经常利用低分辨率(LR)帧内的互补时间信息恢复出一序列高分辨率(HR)帧。点云上采样采用冗余的空间信息,可以类比?但不同的压缩视频有不同的压缩参数,实验设置与实际应用之间的性能差距很大,不能自适应地处理各种不同的压缩级别。为此提出了一种新颖且实用的压缩感知视频超分辨率模型,使其视频增强过程适应估计的压缩级别。

2024-07-16 19:32:38 1000

原创 NERI阅读

IEEE2024。

2024-07-02 16:15:59 244

原创 Density-preserving阅读

CVPR 2022局部密度非常重要。现有方法的一个典型策略是在压缩前对点进行体素化。显然它显然失去了局部密度,且精度受限于体素大小。如上图所示,忽略局部密度会出现均匀分布(G-PCC)和聚集点(Depoco)等伪影,导致重建效果变差,尤其是在bpp较低时。

2024-06-26 12:52:10 655

原创 DeepSDF阅读

之前文章的sdf都是离散的,只能得到固定网格位置的sdf值,想要得到随意位置的sdf值需要对当前位置的邻居的sdf值进行采样。DeepSDF用神经网络拟合SDF函数。由于神经网络的拟合性质,能够预测任意位置的sdf值。在DeepSDF表示单个物体的基础上提出Auto-decoder架构,实现重建某一类形状的任务,将模型大小减少了一个数量级。针对给定的目标形状训练单个深度网络。给定目标形状,准备一组由3D点及其SDF值组成的组X。对于输入三维坐标x,得到当前位置处的SDF值s,组成X对。

2024-05-23 19:57:42 306 1

原创 HNeRV阅读

1.位置嵌入没有与框架的内容相结合,内容不可知。2.模型参数分布不均,靠后层(接近输出)比靠前层(接近嵌入)具有更少的参数。这也是隐式表达共同的缺点:以牺牲可泛化性为代价,具有简单性。

2024-04-25 16:40:01 299 1

原创 NeRV阅读

传统方式将视频表示为帧序列。NeRV创新性的将视频表示为以帧索引为输入的隐式神经网络。像素级表示对于输入的每个坐标输出每个像素的RGB。NeRV对于输入的每个时间帧t输出整幅图像。在时间t处的一帧,θ参数化的函数f。NeRV在解码速度上表现出了极大的优势。NeRV使用MLP+卷积网络架构输出图像,而像素级表示使用简单的MLP输出像素的RGB值。

2024-04-25 16:39:08 288 1

原创 Point Transformer V3阅读

不创新注意力机制,而是权衡现有的准确性和效率(利用scale的力量)。模型性能更多受到规模的影响,而不是复杂的设计。将simple和efficient置于某些机制的准确性之上,从而实现可扩展性,而这些机制在scale后对整体性能来说是次要的。实现了显著的缩放,将感受野从16扩展到1024点,同时很高效(相比于其前身PTv2 ,处理速度提高了3倍,内存效率提高了10倍)。

2024-04-19 21:41:07 1031

原创 Checkerboard Context Model阅读

以往的方法大多采用基于掩码卷积的自回归模型,极大地提高了模型的性能,但由于严格的解码顺序,解码速度随特征图的大小指数增加。为了并行化熵模型,提出了一种两阶段的上下文模型。最快情况两步即可解码所有隐特征。用随机掩码对各种上下文模型进行分析,比较不同上下文位置对节省比特率的作用。从sampling space中随机采取不同的掩码格式(黑色表示采用该位置的信息,白色表示用掩码进行隐藏)应用到图片中,评估最后的比特大小。量化节省比特率的能力,定义为码率节省比。

2024-04-08 11:33:23 312

原创 MuSCLE阅读

以往的点云压缩大多只使用了点云的三维位置信息(8位的占用位),很少关注其他属性,如雷达强度等。将这些属性与位置信息一起压缩可以对减少存储产生积极影响。利用多次LiDAR扫描之间的相关性进行时间上的建模。

2024-04-08 11:31:56 370

原创 OctSqueeze阅读

提出一种新的深度压缩算法来减少点云的内存占用。利用点之间的稀疏性和结构冗余来降低比特率。先利用高效且自适应的八叉树结构来获得原始点云的初始编码。然后在树的每个中间节点上学习一个树结构的深度条件熵模型,结合场景的先验上下文来帮助预测节点符号。最后从熵模型中预测的概率被传递给编码器,将序列化的符号编码成最终的比特流。

2024-03-30 13:53:10 836

原创 OctFormer-Wang阅读

普通的注意力复杂度为O(N^2),不可处理大规模的点云数据。使用窗口注意力,可将计算限制在非重叠的窗口内。控制每个窗口中的点数K,计算复杂度降到O(K^2*N/K)。但点云有稀疏性,窗口间的点数有很大的变化,无法在GPU上并行操作。提出了一种方法:在保持每个窗口中点(体素化后的整个叶结点)的数量恒定的同时,允许窗口的形状自由变化。用八叉树处理点云,再对同深度的八叉树节点用shuffled key进行排序。

2024-03-30 13:52:28 297

原创 DDPCC阅读

特征提取由两个串联的下采样块组成,用于分层减少空间冗余。用基于稀疏CNN的下采样块,进行低复杂度点云下采样。IRN(初始残差网络)用于局部特征分析和聚合。

2024-03-23 18:09:31 353 1

原创 DGCNN阅读

1.edgeconv:聚合邻域信息得到当前点特征2.动态更新图:一个点的邻居在网络的不同层之间发生变化。特征空间中的邻近度与输入的邻近度不同,信息在整个点云中的非局部扩散。通过动态更新图,感受野与点云的直径一样大,且稀疏。

2024-03-23 18:05:33 150 1

原创 OctFormer-Compression阅读

3D卷积或频繁的多头自注意力操作的方法会带来巨大的计算量。提出的OctFormer比VoxelContext节省17%的Bpp,比OctAttention节省99%解码时间。

2024-03-23 18:00:29 412

原创 Fast Point Transformer阅读

由于全局自注意力的运算成本较高,因此在3D视觉任务中是不可行的。目前基于注意力的方法都是将大规模场景划分为小区域,然后将局部预测结果结合在一起,但这涉及额外的预处理和后处理阶段,且由于局部视角的预测,还会降低准确率。网络分为三个部分:1.点云进行质心感知体素化2.用局部自注意更新特征3.体素块进行质心感知去体素化pn:点坐标,in:原始特征vi:体素坐标,fi:体素特征,ci:质心坐标pn:点坐标,on:输出特征。

2024-03-15 22:34:20 399 1

原创 稀疏卷积理解

comoutation pipeline中的Rulebook错误:i_in没有2,所以11和13行内容要删除。build hash out table时,p out下面的(1,0),(2,0)对应位置错误。闵可夫斯基引擎采用的是submanifold output definition形式的卷积。基础内容参考:https://zhuanlan.zhihu.com/p/382365889。submanifold output definition样例中的输出都是A1+A2。只对一些错误进行修改。

2024-03-08 13:56:14 336

原创 MinkowskiEngine和pytorch3d库安装的坑

解决:将MinkowskiEngine目录中 setup.py 文件中的“cmdclass={“build_ext”: BuildExtension}”这一行改为“cmdclass={“build_ext”: BuildExtension.with_options(use_ninja=False)}”,pytorch默认使用ninjia作为backend,把它禁用掉就好了。pytorch3d一样。

2024-01-29 18:26:19 654 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除