自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 双空间知识蒸馏用于大语言模型

知识蒸馏(Knowledge Distillation, KD)被认为是一种有前景的方案,可以通过将大型语言模型(LLMs)中的知识迁移到较小的模型中,从而实现模型压缩。在这个过程中,白盒知识蒸馏方法通常通过最小化两个模型输出分布之间的距离,以传递尽可能多的知识。然而,在当前的白盒KD框架中,这些输出分布来自各自模型独立的输出空间,即它们使用各自的预测头。我们认为,这种空间差异会导致教师模型与学生模型在表示层面和分布层面上的相似性较低。

2025-06-05 11:28:31 887

原创 重新审视自回归语言模型的知识蒸馏

知识蒸馏(Knowledge Distillation, KD)是一种常见的方法,用于压缩教师模型,以减少其推理成本和内存占用,通过训练一个更小的学生模型来实现。更大的教师模型反而可能导致更差的学生模型表现。针对这一问题,我们进行了系列分析,发现不同的 token 在教学过程中有不同的“教学模式”,而忽视这一点会导致性能下降。受此启发,我们提出了一种简单而有效的自适应教学方法(Adaptive Teaching for Knowledge Distillation,简称 ATKD),以改进知识蒸馏过程。

2025-06-03 11:51:16 789

原创 以少学习:通过无标签数据从大型语言模型进行知识蒸馏

在实际的自然语言处理(NLP)应用中,大型语言模型(LLMs)由于在海量数据上进行过广泛训练,展现出极具前景的解决方案。然而,LLMs庞大的模型规模和高计算需求限制了它们在许多实际应用中的可行性,尤其是在需要进一步微调的场景下。为了解决这些限制,实际部署时通常更倾向于使用较小的模型。但这些小模型的训练常受到标注数据稀缺的制约。

2025-05-27 19:57:27 867

原创 精简大语言模型:用于定制语言模型的自适应知识蒸馏

诸如 GPT-4 和 LLaMA-3 等大型语言模型(LLMs)在多个行业展现出变革性的潜力,例如:提升客户服务、革新医疗诊断流程,或在新闻报道中识别危机事件。然而,在部署 LLM 时仍面临诸多挑战,包括训练数据有限、计算成本高,以及在透明性和可解释性方面存在问题。我们的研究聚焦于从 LLM 中蒸馏出紧凑、参数高效的定制语言模型(TLMs),以应对特定领域任务,并实现与 LLM 相当的性能。

2025-05-13 17:58:30 1170

原创 RAIL-KD: 随机中间层映射知识蒸馏

中间层知识蒸馏(KD)能够改进标准KD技术(仅针对师生模型的输出层),尤其对于大型预训练语言模型效果显著。然而,中间层蒸馏存在计算负担过重和层映射设置工程复杂的问题。为解决这些难题,我们提出随机中间层知识蒸馏(RAIL-KD)方法,通过随机选取教师模型的中间层蒸馏到学生模型的对应层。这种随机选择机制确保:所有教师层都能参与训练过程,同时降低中间层蒸馏的计算开销。此外,该方法还能作为正则化器提升学生模型的泛化能力。

2025-05-09 14:53:12 614

原创 通过LoRA适配器对齐中间层大小以实现知识蒸馏

中间层蒸馏(Intermediate Layer Distillation, ILD)是知识蒸馏(Knowledge Distillation, KD)的一种变体,属于神经网络压缩方法。ILD需要通过映射对齐教师模型与学生模型中间层的维度以计算训练损失函数,但该映射在推理阶段并不会被使用。这种不一致性可能会降低中间层的学习效果。本研究提出LoRAILD方法,利用LoRA适配器消除这种不一致性。然而,实验结果表明,LoRAILD并未超越现有方法。

2025-05-07 09:09:30 876

原创 uDistil-Whisper:低数据场景下基于无标签数据过滤的知识蒸馏方法

近期研究通过伪标签(pseudo-labels)将Whisper的知识蒸馏到小模型中,在模型体积减小50%的同时展现出优异性能,最终得到高效、轻量的专用模型。然而,基于伪标签的蒸馏关键步骤需筛选高质量预测结果并仅用于训练,这一过程需依赖真实标签(ground truth)过滤低质量样本,导致方法受限于人工标注数据。此外,传统蒸馏需大量数据,限制了其在低资源场景的应用。为此,我们提出了一种无需任何标注数据的蒸馏框架。

2025-05-06 16:23:11 1131

原创 MiniLLM:大型语言模型的知识蒸馏

知识蒸馏(KD)是一种极具前景的技术,能够有效降低大型语言模型(LLMs)的高计算需求。然而,现有的KD方法主要应用于白盒分类模型,或通过训练小模型来模仿ChatGPT等黑盒模型API。如何将白盒LLMs的知识有效蒸馏到小模型中仍待深入探索——随着开源LLMs的蓬勃发展,这一问题显得愈发重要。本研究提出了一种将LLMs蒸馏至小型语言模型的创新方法。

2025-04-28 11:44:51 749

原创 少即是多:面向语言模型压缩的任务感知逐层蒸馏

逐层蒸馏是一种将大型模型(即教师模型)压缩成小型模型(即学生模型)的强大工具。学生模型通过模仿教师模型在每个中间层的隐藏表示来从教师模型中提取知识。然而,逐层蒸馏是困难的。由于学生模型的容量比教师模型小,它常常会出现欠拟合的情况。此外,教师模型的隐藏表示包含了冗余信息,而这些信息对于学生模型学习目标任务来说不一定是必需的。为了解决这些挑战,我们提出了一种新颖的任务感知逐层蒸馏(TED)方法。TED 设计了任务感知滤波器,以便在每一层对齐学生模型和教师模型的隐藏表示。

2025-04-27 16:24:23 747

原创 更加重视:通过注意力转移提高卷积神经网络的性能

注意力在人类视觉体验中起着关键作用。近期研究表明,注意力机制在人工神经网络应用于计算机视觉和自然语言处理(NLP)等领域的多种任务时同样至关重要。本工作中,我们证明:通过合理定义卷积神经网络(CNN)的注意力,可以强制学生CNN模仿强大教师网络的注意力图(attention maps),从而显著提升其性能。为此,我们提出了几种新颖的注意力迁移方法,在多种数据集和CNN架构上均实现了稳定改进。

2025-04-25 16:07:34 908

翻译 FitNets: Hints for Thin Deep Nets

尽管增加网络深度通常能提升性能,但更深层的网络往往非线性更强,这使得基于梯度的训练变得更加困难。近期提出的知识蒸馏(knowledge distillation)方法旨在获得更小、执行更快的模型,其研究表明,学生网络可以模仿大型教师网络或集成网络的软输出(soft output)。本文中,我们扩展了这一思想:不仅使用教师网络的输出,还利用其学习到的中间表征(intermediate representations)作为提示(hints),从而训练出比教师网络更深更窄(deeper and thinner)的

2025-04-24 16:27:59 93

原创 SparseGPT:大语言模型可精准实现单次剪枝

本研究首次证明,大规模生成式预训练变换器(GPT)家族模型可通过单次剪枝实现至少50%的稀疏度,且无需任何重训练过程,精度损失极低。这一突破源于我们提出的新型剪枝方法SparseGPT——专为海量GPT类模型设计的高效精准剪枝方案。实验表明,SparseGPT可在4.5小时内完成当前最大开源模型OPT-175B和BLOOM-176B的剪枝处理,实现60%非结构化稀疏度的同时困惑度几乎无增长:这意味着推理阶段可忽略超过1000亿个权重参数。

2025-04-11 17:57:02 818

原创 情境学习蒸馏:迁移预训练语言模型的少样本学习能力

鉴于大型预训练语言模型在情境学习方面取得的成功,我们提出情境学习蒸馏方法,将大模型的少样本情境学习能力迁移至小模型。该方法通过结合情境学习目标与语言建模目标,使小模型既能理解上下文示例又能掌握任务知识。我们在两种少样本学习范式下实施蒸馏:元情境微调(Meta-ICT)和多任务情境微调(Multitask-ICT)。实验表明,Multitask-ICT在多任务少样本学习中表现更优,但计算开销大于Meta-ICT。在LAMA和CrossFit两个基准测试中,我们的方法对两种范式均带来稳定提升。

2025-04-10 10:54:09 688

原创 《点石成金:利用负样本数据蒸馏大语言模型的复杂推理能力》

大语言模型(LLMs)虽然在各类推理任务中表现优异,但其参数规模庞大且访问受限的特点阻碍了实际应用。通过蒸馏思维链推理路径将LLMs的推理能力迁移至小模型是一种可行方案。然而在面对复杂数学问题时,LLMs生成的推理链可能存在错误。现有研究仅利用正样本进行知识迁移,而将错误答案的合成数据直接丢弃。本研究创新性地揭示了负样本数据的价值,提出包含训练与推理三阶段渐进式框架的模型特化方法,实现正负样本协同蒸馏。我们在数学推理任务上的大量实验表明,负样本数据对LLM知识蒸馏具有显著提升效果。

2025-04-09 13:54:00 971

原创 《大语言模型压缩技术综述》

大语言模型(LLMs)已成功革新自然语言处理领域,但其庞大的参数量与高昂的计算需求为实际部署带来严峻挑战,尤其在资源受限的场景下。模型压缩技术已成为应对这些挑战的关键研究方向。本文系统综述了面向LLMs的模型压缩方法,涵盖参数量化、权重剪枝和知识蒸馏等核心技术,重点阐释最新研究进展。同时深入探讨评估压缩后LLMs性能的关键基准测试策略与量化指标。本综述旨在为研究者与实践者提供洞见,在提升LLMs运行效率与实际应用价值的同时,为未来技术突破奠定理论基础。

2025-04-09 11:35:58 545

原创 大语言模型的知识蒸馏研究综述

摘要——在大语言模型(LLMs)时代,知识蒸馏(KD)成为将GPT-4等领先专有大模型的高级能力迁移至LLaMA、Mistral等开源模型的核心方法。随着开源LLMs的蓬勃发展,KD不仅在这些模型的压缩过程中发挥关键作用,还能通过自我教学机制促进模型迭代优化。本文系统综述了KD在LLM领域的三重功能:向小模型传递高阶知识、实现模型压缩以及推动自我提升。研究围绕算法、技能和垂直领域三大支柱展开——深入剖析KD技术机理、特定认知能力的强化方法及其跨领域应用范式。

2025-04-08 18:28:24 864

原创 逐步蒸馏法!以更少训练数据和更小模型规模超越大语言模型

个人总结:1、逐步蒸馏方法是通过大预言模型预测标签中产生的推理依据,小模型通过多任务学习框架,预测标签与推理依据,达到微调和蒸馏的双重效果。2、效果最好的是用80%数据的770M参数T5模型超越了540B参数PaLM模型的少样本提示性能,相差700倍。

2025-04-08 13:34:38 856

原创 本地部署大语言模型,搭建的本地知识库

新建系统变量,变量名:OLLAMA_MODELS 变量值:下载保存路径。复制命令,进入CMD输入ollama run deepseek-r1:1.5b。2、ollama安装模型路径更改,建立模型安装文件ollamaimagers。1、安装包移动到想要安装的磁盘,并建立安装文件夹。启动模型ollama run+空格 模型名字。卸载模型ollama rm+空格 模型名字。查看模型名字ollama list。输入ollama则显示安装成功。3、下载大语言模型,进入官网。点击高级进入环境变量。

2025-03-02 23:18:06 175

原创 Hierarchical Ranking Neural Network for Long Document Readability Assessment

可读性评估旨在评估文本的阅读难度。近年来,尽管深度学习技术逐渐应用于可读性评估,但它没有考虑文本的长度和可读性标签的顺序。在本文中,我们提出了一种应用于可读性评估的层次混合神经网络模型。该模型捕捉上下文信息以指导文本中丰富信息的位置。同时,引入了成对排名算法,通过标签减法来学习可读性级别之间的顺序关系。在多个公共数据集上,我们的模型在不同指标上优于神经文档模型竞争对手和机器学习基准算法。关键词:长文档,多维上下文权重,排名模型。

2024-07-26 20:26:37 1025

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除