绒绒毛毛雨-CSDN博客

原创 GREAT: Guiding Query Generation with a Trie for Recommending Related Search about Video at Kuaishou

本文针对短视频平台中的视频相关搜索查询推荐（I2Q）任务展开研究，提出了一种基于大语言模型（LLM）的新型框架GREAT。针对该场景缺乏公开数据集的问题，首次发布了来自快手App的大规模真实数据集KuaiRS。GREAT框架通过构建查询trie树，在训练阶段增强LLM生成优质查询的能力，在推理阶段引导token生成，并引入后处理模块优化查询质量。实验表明，该方法有效解决了传统检索式方法缺乏深度交互的问题，同时克服了生成式方法文本质量低的缺陷，显著提升了查询推荐的效果、相关性和文本质量。

2026-01-04 14:05:34 721

原创 Dual-Target Disjointed Cross-Domain Recommendation Mediated via Latent User Preferences

摘要本文研究多平台环境下数据稀疏对推荐系统的挑战，提出一种跨平台推荐新方法。针对"双目标、无重叠、跨平台推荐"这一独特场景，设计硬匹配(HNO3-CDR)和软匹配(SNO3-CDR)两种算法：硬匹配采用匈牙利算法实现用户严格映射，软匹配通过Sinkhorn距离实现端到端学习。该方法利用概念相似但数据独立的平台间关联，建立跨域知识迁移桥梁，有效缓解数据稀疏问题。实验证明该方法能显著提升推荐性能，为跨平台推荐提供新思路。

2026-01-04 11:44:56 815

原创 Advancing Table Understanding of Large Language Models via Feature Re-ordering

本文摘要：大型语言模型(LLMs)在处理表格数据时面临特征顺序偏差问题，即输入特征的排列顺序会显著影响模型预测结果。研究提出ROTATOR-LLM方法，通过动态规划生成最优特征轨迹来缓解这一偏差。该方法采用轻量级元控制器，在测试时自动调整特征顺序而无需微调基础模型。实验表明，该方法在多个数据集上使LLMs性能提升近20%，优于现有表格处理方法。研究揭示了LLMs的顺序偏差现象，并提出了一种低成本解决方案，为提升LLMs表格理解能力提供了新思路。

2026-01-04 11:13:22 701

原创 Tending Towards Stability : Convergence Challenges in Small Language Models

摘要本研究探讨了不同规模语言模型的学习动态差异。通过分析Pythia模型组发现：大型模型（2.8B参数）的层激活在训练前20%就能稳定收敛，而小型模型（160M参数）的层激活则表现出缓慢且不稳定的收敛过程。研究引入"比例有效秩"(PER)指标，发现大型模型的层参数和梯度覆盖更多有效维度，且PER较早稳定。相关性分析显示，层激活的快速收敛与参数和梯度的高PER显著相关（Attention层相关系数达0.45）。这些发现为理解小型模型训练低效提供了新视角，并为改进小型模型性能指明了方向。研

2025-12-24 17:38:10 971

原创 Why do small language models underperform? Studying LM Saturation via the Softmax Bottleneck

摘要本文研究了小型语言模型在预训练后期出现的性能饱和现象。研究发现，当模型隐藏层维度小于1000时，其线性预测头会因softmax瓶颈效应而无法有效拟合高秩的上下文概率分布，导致表示退化和性能下降。通过分析Pythia模型套件发现，参数量低于4.1亿的模型在训练后期会出现奇异值分布退化和各向异性增加的现象，与性能下降高度相关。实验表明，当语言模型头的秩低于1000时，无论模型大小都会出现显著的性能损失。理论分析进一步证实，低秩线性头会限制模型对高维上下文分布的拟合能力。这些发现为理解小型语言模型的性能瓶颈

2025-12-24 17:21:12 919

原创 NARROW FINETUNING LEAVES CLEARLY READABLE TRACES IN ACTIVATION DIFFERENCES

本文研究发现，狭窄领域微调会在大型语言模型（LLMs）的激活层中产生显著偏差，这些偏差可通过模型差异分析技术检测，并用于理解微调领域。通过分析随机文本前几个token的激活差异，并将其添加回模型激活中，可生成与微调数据相似的文本。研究构建了基于LLM的可解释性代理，利用偏差信息识别微调目标，其表现比基线提示方法提升2-30倍。实验覆盖多种模型架构（Gemma、LLaMA、Qwen）和规模（1亿至320亿参数），涉及假事实合成、模型失调等场景。研究表明这些偏差源于过拟合，可通过混入预训练数据缓解。主要贡献包括

2025-12-08 15:28:59 821

原创纪录一个很闹心的bug：vscode的conda环境的python和远程不一致

摘要用户遇到conda环境中Python版本始终显示为3.6.8的问题，而远程环境正常。尝试了三种解决方案：1）强制VSCode使用登录shell（失败）；2）修改.bashrc加载登录配置；3）手动执行bash -l命令。最终通过关闭VSCode终端的环境变量继承功能成功解决问题，确保终端环境与VSCode一致。主要解决方案包括配置终端参数和调整环境变量加载方式。

2025-11-25 14:57:26 49

原创 ResQ: Mixed-Precision Quantization of Large Language Models with Low-Rank Residuals

摘要本文提出ResQ，一种新型后训练量化方法，用于大型语言模型(LLMs)的权重、激活及KV缓存统一压缩。针对激活中极端离群值导致的4比特量化误差问题，ResQ创新性地结合主成分分析(PCA)与随机旋转技术：首先通过PCA识别方差最大的低秩子空间(占隐藏维度1/8)，将其保留为8比特高精度；其余部分量化为4比特，并在各子空间内施加随机旋转以抑制离群值。理论证明该混合精度方案具有误差最小化最优性。实验显示，在Llama和Qwen2.5系列模型上，ResQ显著优于现有方法——WikiText困惑度较SpinQ

2025-11-16 23:03:00 976

原创 DuQuant: Distributing Outliers via Dual Transformation Makes Stronger Quantized LLMs

摘要：大型语言模型（LLMs）量化面临离群激活值（尤其是大规模离群值）的挑战，传统方法难以有效处理。本文提出DuQuant方法，通过旋转与置换变换协同优化离群值分布：1）基于先验知识构建块对角旋转矩阵，局部平滑离群值；2）设计“之字形置换”全局均衡块间离群值，降低方差。实验表明，DuQuant在4比特量化下显著优于现有方法，在LLaMA系列模型上实现最高10%性能提升，推理阶段内存降低3.5倍，速度提升2.08倍，代码已开源。该方法为高效部署LLMs提供了新思路。

2025-11-16 22:55:37 700

原创 KAES: Multi-aspect Shared Knowledge Finding and Aligning for Cross-prompt Automated Scoring of Essay

本文提出了一种基于多维知识发现和对齐优化的跨题目自动作文评分框架KAES。针对传统方法在共享知识学习上的粗粒度局限，该框架通过无监督聚类自动发现多维度题目无关知识（如语法、连贯性等），并利用聚类结果指导作文表征学习。创新性地引入大语言模型（LLM）将隐式聚类知识转化为显式、可解释的特征描述，通过相似度匹配选择最相关的知识维度与作文表征融合。实验在ASAP++数据集上验证了该方法的有效性，相比现有模型展现出更优的跨题目评分性能。研究首次实现了"发现-对齐-显式化"的多维知识学习机制，为提升

2025-11-11 10:48:09 882

原创 CEAES: Bidirectional Reinforcement Learning Optimization for Consistent and Explainable Essay Assess

本文提出了一种新颖的双向强化学习框架（CEAES），用于联合优化作文评分预测和反馈生成任务。传统方法将这两个任务独立处理，忽视了评分（量化评价）与反馈（定性评估）之间的内在一致性。该框架通过共享编码器提取作文特征，采用双向强化学习策略实现评分与反馈的动态对齐：基于预测分数优化反馈生成，同时利用反馈调整评分预测。实验结果表明，该方法能同时提高评分准确性和反馈质量，在ASAP++数据集上优于现有模型。主要贡献在于首次实现两项任务的联合优化，并提出双向强化机制确保评分与反馈的一致性。

2025-11-10 19:46:18 993

原创 CTR-Driven Ad Text Generation via Online Feedback Preference Optimization

本文提出了一种基于在线反馈偏好优化的广告文本生成方法CTOP，旨在提升点击率(CTR)。该方法采用两阶段框架：首先通过检索增强生成(RAG)技术获取多样化广告文本样本，然后基于CTR提升幅度和置信度对偏好对进行加权优化。实验表明，CTOP在离线和在线指标上均优于人工创作的广告文本，在大型电商平台应用中实现了1.11%的CTR提升和1.02%的每千次展示收入增长。该方法有效解决了传统采样解码质量低和在线反馈噪声大的问题，为CTR驱动的广告文本生成提供了创新解决方案。

2025-11-10 17:43:29 436

原创 Understanding Sharpness Dynamics in NN Training with a Minimalist Example

本文研究深度神经网络训练中的渐进锐化现象，提出一个极简的深度线性网络模型（每层单神经元）来分析这一现象。理论分析和实验表明，该模型能有效捕捉实际训练中的锐度动态，包括渐进锐化和稳定边缘行为。研究发现渐进锐化程度受数据集规模、网络深度、批量大小和学习率等因素影响，并通过"数据集难度"概念建立了锐度的理论界限。实验验证了这些理论发现可推广至实际场景，为理解神经网络训练动态提供了新视角。

2025-11-06 11:40:20 1021

原创 CATASTROPHIC FAILURE OF LLM UNLEARNING VIA QUANTIZATION

本文研究发现大型语言模型（LLM）现有遗忘方法存在严重缺陷：量化操作可显著恢复"被遗忘"知识。实验表明，采用效用约束的遗忘方法在4-bit量化后，目标知识恢复率达83%，远高于全精度模型的21%。作者提出理论解释认为，现有方法因权重变化过小导致量化后权重趋同，引发知识恢复。基于此，研究提出了一种针对量化鲁棒性的遗忘策略，同时揭示了模型效用保持与量化安全之间的根本矛盾。这项工作为LLM遗忘领域提出了新挑战，呼吁开发更全面的遗忘评测标准和更鲁棒的遗忘方法。代码已开源。

2025-11-05 20:44:17 1076

原创量化之多模态大模型领域调研

近期三大会（NeurIPS、ICLR、ICML）在量化领域的研究呈现差异化发展。NeurIPS 2024收录的Q-VLM开创性地探索了视觉语言大模型量化领域，而ICLR 2025的DGQ则揭示了跨注意力层的双峰分布特性。CVPR 2025的MBQ提出了模态平衡量化方法，表明视觉语言模型量化成为新热点。相比之下，ACL和KDD在量化研究上相对薄弱，主要聚焦语言模型量化的性能权衡问题。整体来看，多模态大模型量化正成为前沿方向，但现有方法在异常值处理、模态平衡等方面仍有改进空间。

2025-11-03 11:50:13 810

原创爬虫前奏--基于macos的ip代理池构建

摘要：本项目旨在解决爬虫因频繁请求被封IP的问题，通过搭建代理池提供可用代理IP。使用开源项目Proxy_Pool采集、验证和管理代理IP，结合Redis高速缓存实现高效存储与调度。部署步骤包括：克隆项目、Docker配置Redis（支持数据持久化）、项目配置及调用代理接口。示例代码演示了如何获取、使用及删除代理IP，确保爬虫稳定运行。适用于需要绕过IP限制的场景，提升数据抓取效率。（字数：150字）核心要点：代理池解决IP被封问题 Redis高速缓存提升代理管理效率 Docker快速部署Redis

2025-10-27 21:02:51 922

原创 Grocery to General Merchandise: A Cross-Pollination Recommender using LLMs and Real-Time Cart Conte

摘要本文提出了一种创新的跨品类推荐框架（Cross-Pollination, XP），专注于解决电子商务中杂货（OG）与日用百货（GM）商品间的跨类别推荐问题。通过整合历史购买数据与大语言模型（LLM）生成的新颖关联，系统采用两阶段方法：首先利用联合购买分析和LLM技术生成候选推荐，再通过基于Transformer的排序模型结合实时购物车上下文进行优化。实验结果表明，该方法显著提升了推荐效果，其中LLM驱动的候选生成使添加购物车率提升36%，基于购物车上下文的排序模型在NDCG@4指标上提升27%。研究为

2025-10-12 20:52:17 626

原创 Image and Video Tokenization with Binary Spherical Quantization 论文阅读

摘要本文提出了一种基于Transformer的新型视觉分词器BSQ-ViT，采用二值球面量化(BSQ)方法，将高维视觉嵌入投影到低维超球面后进行二值化量化。BSQ具有参数高效、可扩展性强和表示紧凑等优势，可将视觉数据压缩至原始大小的1/100。模型采用Transformer编码器-解码器架构，配合分块式因果掩码支持变长视频输入。实验表明，BSQ-ViT在图像/视频重建任务中均达到当前最优效果，重建FID比次优方法降低43%，速度提升2.4倍。此外，结合自回归先验的自适应算术编码，其视频压缩性能与H.264

2025-08-18 22:30:44 1044

原创 PackQViT: Faster Sub-8-bit Vision Transformers via Full and Packed Quantization on the Mobile 管理

本文提出PackQViT框架，实现移动端视觉Transformer(ViT)的高效亚8位全量化。针对ViT激活数据的长尾分布和通道级异常值特性，分别采用log2量化和异常值感知训练方法，并结合Int-2ⁿ-Softmax等全整数计算技术。实验表明，在ImageNet任务上，8位精度下PackQViT准确率提升0.4%-17.9%，4位精度下提升0.4%-2.8%。在骁龙870移动平台实现8位3.7倍、4位5.9倍的加速，首次达到实时性能。

2025-08-16 17:22:14 731

原创 QuantSR: Accurate Low-bit Quantization for Efficient Image Super-Resolution 论文阅读

本文提出QuantSR，一种创新的低比特量化图像超分辨率网络，通过两项关键技术解决现有量化SR模型的性能瓶颈问题。首先，提出再分布驱动的可学习量化器(RLQ)，通过量化器内部的动态再分布机制，有效缓解低比特量化导致的表示同质化和梯度信息丢失问题，在不增加推理负担的情况下增强模型表达能力。其次，设计深度动态量化架构(DQA)，通过权重共享实现不同深度的子网络，突破固定量化模型的精度上限，并支持推理时在效率与精度间灵活权衡。实验表明，QuantSR在2-4比特量化下显著优于现有方法，其4比特版本性能已接近8比特

2025-08-16 17:05:01 1231

原创大模型多卡并行的一些尝试

本文探讨了在有限显存环境下评估大语言模型的三种方法。针对27B模型（FP16需54G显存）在3块40G A100显卡上的部署问题，作者首先尝试了DataParallel但出现OOM错误，因其仅适合数据并行而非模型拆分。随后采用Huggingface的accelerate库成功实现多卡权重自动分配，但推理速度较慢。最后测试了vLLM推理框架，虽然运行顺利但封装过度无法直接调用模型对象。实验表明，对于超大模型评估，基于accelerate的模型并行是可行方案，而专用推理框架vLLM更适合API服务场景。每种方法

2025-07-22 18:29:03 591

原创哈工大企业资源管理erp备考

本文摘要整理了ERP课程上半学期的主要内容，涵盖企业管理的核心概念与系统知识。主要内容包括：1)企业资源与竞争力指标分析；2)ERP思想、软件与系统的层次关系；3)MRP到ERP的演进过程及各系统核心模块；4)企业组织结构与生产流程；5)物料管理方法与BOM应用；6)工时定额与材料定额的制定方法。文章通过22个关键问题系统阐述了企业管理中的资源规划、流程优化等核心内容，为未来职业经理人培养提供了理论基础。

2025-06-20 17:15:12 888

原创 OAC: Output-adaptive Calibration for Accurate Post-training Quantization

摘要本文提出了一种新型输出自适应校准方法(OAC)，用于解决大型语言模型(LLM)在极低精度(2位及二值)后训练量化中的性能下降问题。传统PTQ方法基于层级欧几里得损失进行校准，忽略模型整体输出，导致低精度量化时准确率显著降低。OAC创新性地将模型输出纳入校准过程，通过近似输出交叉熵损失的二阶导数构建"输出自适应Hessian矩阵"，实现更精准的权重调整和重要权重检测。实验表明，OAC在2位和二值量化下显著优于SpQR、BiLLM等先进方法，为LLM的高效部署提供了新思路。该方法突破了

2025-06-14 14:22:04 849

原创记录一个大模型逐层微调计算损失输出少了一个维度的小bug

本文展示了两种神经网络层(线性层和Transformer)的MSE损失计算实现。关键区别在于Transformer层返回元组(主输出+辅助输出)，需要解包获取主输出；而线性层只返回单一输出。值得注意的是，若在线性层错误使用解包操作，会导致输出维度不匹配(从[batchsize,output]变为[output])问题。两种实现都包含输入/输出维度检查、MSE损失计算，并提供了调试打印语句(已注释)，Transformer版本还包含设备检查功能。

2025-06-12 14:47:08 452

原创 The Quantization Model of Neural Scaling

我们提出了神经网络规模定律的量化模型，该模型既解释了随着模型和数据规模增加损失按幂律下降的现象，也解释了随着规模扩展新能力突然出现的现象。我们基于所谓的“量化假设”推导出该模型，认为网络的知识和技能被“量化”为离散的单元（量子）。我们展示了当这些量子按照使用频率从高到低依次被学习时，使用频率的幂律分布能够解释观察到的损失幂律缩放现象。我们在简单数据集上验证了该预测，并进一步研究了大型语言模型的规模曲线如何分解。通过利用语言模型的梯度信息，我们自动将模型行为分解为多样化的技能集合（量子）。

2025-06-08 18:48:22 912

原创 Z-FOLD: A Frustratingly Easy Post-Training Quantization Scheme for LLMs

本文提出一种名为Z-FOLD的后训练量化方法，用于提升大型语言模型(LLMs)的推理效率。该方法利用Transformer架构的预归一化特性，在不增加额外计算开销的前提下，通过引入输入通道缩放因子ζ并将其融合到已有参数中，显著降低量化损失扰动。实验表明，Z-FOLD在超大规模模型量化中取得领先性能，支持最低2位量化，有效缓解内存和计算瓶颈。该方法简单高效，无需重训练或额外硬件成本，为LLMs的部署提供了实用解决方案。代码已开源。

2025-06-08 14:51:51 842

原创 Thinking in Granularity: Dynamic Quantization for Image Super-Resolution by Intriguing Multi-Granu

本文提出了一种新型动态量化方法Granular-DQ，用于图像超分辨率任务。该方法突破了传统层级动态量化的局限，创新性地从图像内容本身的两个特征维度——多粒度表征和信息熵密度出发，实现了补丁级、层不变的动态位宽分配。核心贡献包括：(1) 设计粒度位控制器(GBC)，通过层次化建模补丁的粗细粒度特征，建立粒度等级与位宽的映射关系；(2) 提出熵到位(E2B)机制，基于信息熵统计动态校准位宽分配。实验表明，该方法在CNN和Transformer架构上均显著优于现有动态量化方案，在保持模型性能的同时大幅提升了量化

2025-05-28 14:01:53 1040

原创 QJL: 1-Bit Quantized JL Transform for KV Cache Quantization with Zero Overhead

为大型语言模型（LLMs）提供服务需要大量内存，因为 Key-Value (KV) 嵌入在 KV 缓存中的存储需求随着序列长度的增加而增长。压缩 KV 缓存的有效方法是量化。然而，传统的量化方法面临显著的内存开销，因为需要以全精度存储每个数据块的量化常数（至少一个零点和一个缩放因子）。根据数据块的大小，这种开销可能会为每个量化数字增加 1 到 2 位。我们介绍了一种新的量化方法，称为 QJL，它由约翰逊-林登施特劳斯（Johnson-Lindenstrauss，JL）变换和符号位量化组成。

2025-05-28 13:17:57 1060

原创记录：训练过程中可训练参数出现nan和inf造成loss为nan

文章摘要：作者在训练模型时遇到loss出现NaN的问题，通过逐步排查发现可训练参数出现inf/nan。尝试降低学习率、统一运算精度（改为fp16）均无效，关闭tf32计算后问题依旧。最终解决方案是将参数初始化为fp32但在前向计算时转换为fp16，成功避免了数值溢出。关键教训：模型训练时应避免直接使用fp16精度，以防数值不稳定导致溢出问题。（148字）

2025-05-27 18:00:01 654

原创 Treasures in Discarded Weights for LLM Quantization阅读

摘要本文针对大型语言模型（LLM）量化过程中的精度损失问题，提出了一种创新的"丢弃权重回收"（Discarded Weight Recycling, DWR）框架。该框架通过挖掘量化过程中被舍弃的权重信息，构建优化的搜索空间，在不增加推理开销的前提下有效提升低位宽（如INT4/INT2）量化模型的精度。基于三种搜索空间生成策略（随机生成、低秩分解和混合方法），DWR框架采用全局困惑度作为评估指标，实现了与现有PTQ和QAT算法的无缝兼容。实验表明，该方法能显著降低量化误差，为资源受限环

2025-05-26 18:45:45 886

原创 ASER: Activation Smoothing and Error Reconstruction for Large Language Model Quantization

本文提出ASER算法，通过激活平滑和误差重构解决大型语言模型低位量化中的性能下降问题。研究发现量化误差具有低秩特性，且异常值通道贡献了主要误差。ASER采用白化奇异值分解构建LoRA风格的低秩补偿矩阵，并通过异常值分析平滑激活分布。实验表明，该方法在W4A8每通道量化设置下能有效保持模型精度，计算开销小，优于现有量化技术。

2025-05-26 18:45:13 988

原创广告推荐算法入门 day1 --项目选型

本文介绍了广告推荐系统的基本流程，包括召回、粗排和精排三个主要环节，并强调了针对特定场景进行优化的重要性。在召回环节，建议使用双塔模型，并关注负样本的构造；在精排环节，推荐使用传统机器学习方法，并注重特征交叉、行为序列和多目标建模。文章还通过淘宝用户购物行为数据的可视化分析，展示了如何从时间和产品维度分析用户行为，以提升销售效果。具体分析包括每日PV和UV的趋势、用户活跃时间段、以及热门商品的浏览和购买情况。通过这些分析，可以更好地理解用户行为，优化推荐策略。

2025-05-13 21:56:39 1278

原创哈工大组合优化和凸优化复习

本文概述了优化方法的核心内容，包括线性规划、非线性规划、一维搜索、无约束最优化、约束最优化等关键章节。线性规划部分介绍了单纯形法、对偶理论及其应用；非线性规划涉及最优性条件和次微分；一维搜索部分讨论了精确与不精确搜索方法；无约束最优化方法涵盖了梯度法、牛顿法、共轭方向法等；约束最优化理论则包括KT条件、拉格朗日对偶及ADMM等算法。此外，文章还通过问答形式深入探讨了优化方法的核心思想、改进策略及其在深度学习中的应用，强调了线性规划算法在优化领域的重要性，并对比了牛顿法与最速下降法的优缺点。整体内容为优化方法

2025-05-10 22:47:53 965

空空如也

空空如也