nhynhy0-CSDN博客

原创《CBQ: CROSS-BLOCK QUANTIZATION FOR LARGE LANGUAGE MODELS》学习记录

论文地址出版单位：1 University of Science and Technology of China2 Huawei Noah’s Ark Lab3 Hong Kong University of Science and Technology (GZ)大语言模型在处理自然语言任务中表现出色，由于推理和部署的计算资源要求，后训练量化（PTQ)只使用有限的校准数据和计算资源，很适合用于压缩大语言模型。而现在PTQ的一些方法主要通过解决异常值和应用一阶或二阶的优化方式（主要是按layer或者

2025-07-06 22:08:02 828

原创《Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More》学习记录

针对 visual architecture，大家都采用把图片打成 patch 的方式来减小 token 的序列长度和计算成本，在本文中，作者想检查由这种基于patch的encoding压缩方式带来的信息损失以及怎样影响visual understanding。作者做了 patch size 的放缩实验，发现：patch size 越小，模型得到的预测表现越好，直到极限情况下 patch size 为 1x1 时的 pixel tokenization。

2025-02-20 15:42:09 946

原创《Compressing Transformers: Features Are Low-Rank, but Weights Are Not!》学习记录

Transformer及其变体在CV和NLP中表现良好，但高昂的计算成本和对大型训练数据集的依赖限制了它们在资源受限环境中的部署。模型权值的低秩近似在压缩CNN模型中是有效的，但其在Transformer中的应用研究较少，效果也较差。现有的方法需要完整的数据集来微调压缩模型，这既耗时又需要大量数据。本文揭示了特征（即激活）是低秩的，但令人惊讶的是模型权重不是低秩的。因此，提出了自适应确定压缩模型结构的AAFM算法，该算法局部压缩每个线性层的输出特征，而不是模型权值。

2024-12-25 16:57:51 983

原创《Dense Vision Transformer Compression with Few Samples》学习记录

few-shot 模型压缩的任务是为了把一个大模型通过一个小的训练集（甚至没有label）压缩成一个更紧凑（compact）的模型。在CNN中常使用block-level的剪枝来实现，但是在ViT中尚未对该任务进行充分探索。并且传统CNN few shot的方式存在sparse compression的情况，导致只能产生有限的不同尺寸的压缩模型。

2024-12-22 11:25:27 910

原创《Blockwise Self-Supervised Learning at Scale》学习记录

目前最先进的深度网络都是由反向传播驱动的。然而，在端到端训练中发现的长反向传播路径在生物学上是不可信的，而且在能量消耗方面效率低下。在本文中，我们以块学习规则（blockwise learning rules）的形式探索完全反向传播的替代方案，在自监督学习方面获得了提升。

2024-12-02 13:41:17 2076

原创《Early-exit Convolutional Neural Networks》学习记录

本文旨在开发一种降低卷积神经网络（CNN）在推理过程中的计算成本的方法。通常，输入数据通过固定的神经网络架构。然而，简单的例子可以在处理的早期阶段进行分类，而传统的网络没有考虑到这一点。在本文中，我们引入了“Early-exit CNNs”，简称EENets，它通过在特定的退出位置停止推理过程来根据输入调整计算成本。在EENets中，有许多exit blocks，每个exit block由一个confidence branch和一个softmax branch组成。

2024-11-20 20:22:02 828

原创《LISA: REASONING SEGMENTATION VIA LARGE LANGUAGE MODEL》学习记录

尽管感知系统近年来取得了显著的进步，但在执行视觉识别任务之前，它们仍然依赖于明确的人类指令来识别目标物体或类别。这样的系统缺乏主动推理（reasoning)和理解隐含用户意图的能力。在这项工作中，我们提出了一种新的分割任务-推理分割（该任务的目的是在给定复杂且隐式（implict）的查询文本的情况下输出分割mask。此外，我们建立了一个由一千多个image-instruction pairs组成的benchmark，将复杂的推理和世界知识纳入评估目的。最后，我们提出了LISA: largeLanguage。

2024-11-13 11:49:11 2048

原创《Forward-Forward Contrastive Learning》学习记录

《Forward-Forward Contrastive Learning》个人解读

2024-11-08 19:45:52 1981

原创＜＜AMU-Tuning: Effective Logit Bias for CLIP-based Few-shot Learning＞＞学习记录

在本文中提出从logit bias的角度引入统一的公式来分析基于CLIP的few shot方式，为此，分解了logit bias计算中的三个主要成分：logit features, logit predictor，and logit fusion，证实了其对few shot分类的影响，并在此基础上，提出全新的**AMU-Tuning方式**来学习logit bias，在几个benchmarks上进行了实验，结果表明，AMU-Tuning明显优于其同行，并达到了基于CLIP few shot的SOTA。

2024-11-06 11:00:49 1278 12

nhynhy0的博客