- 博客(13)
- 收藏
- 关注
原创 Mamba模型中的A和B离散化推导
对于Mamba中的连续方程离散化过程比较感兴趣就推导了一下,实际上不去理解推导过程对看mamba模型影响不大。
2024-04-10 13:29:05
471
2
原创 ICLR2023文章分享——嵌入式傅里叶增强低照度图像
整个网络结构如下,大致分为两部分,LRNet即低分辨率处理网络,HRNet,高分辨率处理网络,LRNet部分包含四个FouSpa块,它占据了整个网络绝大部分的计算量,因此用双线性插值将特征下采样到原始分辨率的1/8。经过FouSpa后的特征送入FFT,分别得到振幅Ar和相位Pr的特征,同时Conv卷积整流特征,得到低分结果 H/8×W/8×C。该块用于在傅里叶域和空间域中并行执行增强,在傅里叶域中执行相位/振幅增强,空间域中执行特征增强。空间域分支主要进行卷积操作,以模拟空间域的结构依赖性。
2024-02-27 13:56:43
890
原创 Compression with Bayesian Implicit NeuralRepresentations《阅读笔记》
为了使其达到更好的效果,参考基于VAE的端到端压缩模型方法,把INR拓展到变分贝叶斯中,将权重的变分后验分布q过拟合到数据而非点估计。是均匀编码分布的,导致比特率的恒定,且只使用失真来作为损失函数,因此控制压缩率只能改变权重的数量,这显然不够合理,所以本文通过变分贝叶斯神经网络来解决这个问题。提出了一种坐标下降算法来优化等式中的目标,随机初始化模型先验和后验,并交替以下两个步骤来优化。,采用相对熵编码而非量化点估计来进行熵编码,在本文中,采用了深度有限的全局约束A*编码。在本文中,只考虑对角的高斯先验。
2024-02-27 12:43:02
553
原创 CompressAi 项目中的Module报错问题
最近在Ubuntu系统上捣鼓Compressai,站内的作者已经有windows下运行Compressai的一些教程,很全面了。这篇文章主要记录一下我在Ubuntu系统下按照Compressai运行的问题。需要去查看一下自己的gcc和gcc+版本,初次使用很可能把它们安装成gcc7和g++7,但这个应该不能用, gcc9和g++9是没问题的。报错问题出在C++的编译上,
2024-01-11 20:24:39
1329
7
原创 《Progressive Deep Image Compression for HybridContexts of Image Classification and Reconstruction》笔记
简介:基于上下文的渐进式深度图像压缩(Progressive deep image compression (DIC)),目的是在可变比特率的情况下联合最大化压缩对于多个上下文或任务的效用。这篇文章提出了一个基于掩膜的残差增强渐进式生成编码(RMPGC),来控制率失真分类感知的表现。实验表面所提出的RMPGC比现有的基准DIC在6个指标上的分类,失真与感知都更优秀。 DIC的优点:能够有效地学习给定任务/上下文最重要的潜在特征,并在有损压缩期间更好的保留它们。这篇文章把
2023-12-12 21:24:06
1137
1
原创 文章分享-基于跨成分注意力机制的学习图像压缩
ACEM的作用根据之前的总体框架也可以看出,它利用IGU输出信息来指导最后图像的重构,首先是把Y过增强模块,然后分成四块,然后与IGU生成的ATT结果做哈德码乘法,生成一个引导图然后把Y分量和UV分量都和引导图叠加,送入增强模块,得到最终增强后的UV结果,在这里作者加了一个指示器指示是否激活ACEM,这个指示占两个比特,分别控制是否增强Y和增强UV。并且作者还把IGU和BGU进行了对比,BGU更为复杂一些,它不仅让UV获得Y的信息来引导,还同时让Y获得了UV的信息。
2023-12-01 19:55:28
1182
1
原创 深度学习+压缩感知的图像压缩论文分享
(分块压缩的老问题了)现有的基于神经网络的压缩感知模型绝对多数都关注卷积来捕获图像局部特征,但这也导致建模全局关系时受到限制,而且这些模型的效率比较低,一直在用卷积层的堆叠,这就是作者要重新设计一个神经网络,使其学习图像子块间的全局关系的原因。proj的每个h都是第h个头部的线性投影,d是输入维度,attn()表示缩放的点积函数,concat()是用于将头部的离散注意力拼接在一起的函数,拼接后得到输出。初始重构后的结果仍然存在很强的块效应,而且它还是欠拟合的,不过是能用较低的容量保持了图像的信息。
2023-11-24 22:50:59
3544
7
原创 CVPR2023 图像压缩文章学习笔记《LVQAC》
作者提出的LVQ解决了这个问题,LVQ可以利用特征间的依赖性实现量化,而且计算还很简单。作者还提到了关于要传输额外信息的问题,因为除了传输量化表示的索引外,还要传输额外比特来指示所选择的码本,每组固定二维空间位置的码本所有通道共享一组码本,即对于h*w*3大小的图像,它的潜在表示大小是h/16*w/16*c。这个正方形的晶格就类似四舍五入的标量量化,六边形这个稍微复杂一些,它应该是二维空间中最好的矢量量化晶格,但对于要量化的特征向量,这里的维度是远高于2的,因此选择金刚石晶格来作为这里的结构。
2023-11-23 21:18:02
1647
1
原创 较为新颖的端到端图像压缩论文《Learning End-to-End LossyImage Compression: A Benchmark》学习笔记
作者采用了与现有上下文模型不同的地方,现有模型是根据块条件来指导上下文模型的(就是Balle,2018年的那篇),而本文中每个元素的概率估计都利用了由粗到细的更大区域的信息。这篇文章的作者对端到端的图像压缩文章了解的很透彻,而且所提出的由粗到细的超先验模型更是达到了超过Balle的那篇非零均值高斯的那篇文章结果,所以这篇文章可能是目前效果最好的端到端压缩方案之一?不管怎么说,还是很值得学习的。不仅描述了基于学习的图像的里程碑,也揭露了现存的一些问题和有待解决的挑战,还介绍了一种自己提出的模型。
2023-11-18 00:08:59
1815
4
原创 《A Privacy-Preserving Image Retrieval Scheme Basedon 16×16 DCT and Deep Learning》学习笔记
学习了一篇论文,文章提出了一种新的加密图像检索方法。采用16*16的DCT变换,对JPEG压缩过程加密。检索则是提取DCT直方图为特征,传入MLP(多层感知器)网络来检索。
2023-11-10 00:33:30
347
1
原创 分块图像压缩的块填充问题(含python代码)
因为JPEG图像压缩中要考虑到一个分块然后DCT变换的问题,然而并不是所有图片分辨率都能正好到8*8,分块的时候必然出现一些块达不到8*8的,那为了让它们也能送入8*8DCT变换,就考虑把它们填充到8*8的大小,第一种方法是零填充,即把原图像块放在左上角,剩余部分用0填充至8*8。所以我写了一个fill_block的函数来实现拉取周围像素填充至8*8,比如对于8*5的像素,它缺少3个列,那就取第3到5列复制下来,拼接到矩阵后面形成8*8。能跑通,那就说明没问题。可以随机生成一个矩阵试试看。
2023-11-06 16:24:09
161
原创 VARIATIONAL IMAGE COMPRESSIONWITH A SCALE HYPERPRIOR 中的公式推导
对比最终的3式可以发现,p(x)这项没了,这是因为p(x)是一个确定的,存在的分布,只是我们写不出它的表达式而已,所以它在这里就直接被固定为了常数项。目前先更新到这里,有时间的话会其余公式的推导的,由于本人水平有限,如果有什么错误,也请各位批评指正。入学以来看了几篇端到端的图像压缩模型的文章,但一开始心浮气躁,也看不下去公式,最近看到了几篇关于VAE变分自编码器推导过程,就又把看过的文章拿出来重新看了,也终于能看懂其中一些公式是怎么来的了,就在这里记录一下公式推导和注解吧。
2023-10-21 23:51:03
257
1
原创 [END-TO-END OPTIMIZED IMAGE COMPRESSION]学习笔记
在一般的神经网络中,都会采用BN层来使得数据接近于高斯分布,更加符合图像的特征,它在所有空间位置上的重新缩放因子是相同的,且一旦训练完成,缩放参数就是固定的。提出了一种基于非线性变换的图像压缩的端到端的优化框架,作者是对MSE均方误差来进行优化的,但采取了一种更为灵活的形式,将线性卷积和非线性变换级联,使用广义除法归一化联合非线性。此外,目前也没有方法能将不同图像的率失真曲线结合起来,当前的做法是对使用相同λ值压缩的图像求平均MSE和平均熵值,但是图8说明了,这种方法仍然或多或少会影响压缩的表现。
2023-09-16 22:17:48
862
2
An image compression ... 学习笔记
2023-11-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人