LLM-轻量化
文章平均质量分 91
LLM-轻量化
nopSled
一周一更
展开
-
Sparse Low-rank Adaptation of Pre-trained Language Models翻译
以参数高效的方式适应大规模预训练语言模型在研究界越来越受到关注。这种范式的方法通常保持底层模型的大部分参数不变,要么在模型中插入额外的可训练参数,要么指定少量可训练参数,要么将适应过程重新参数化为更有效的形式。它们已被验证在各种模型和任务中都是有效的,通常会产生与全参数微调相当甚至更好的结果。经过对参数高效微调性能的广泛验证后,其发展潜力变得显而易见。这些方法提供了调整base模型以适应任何数据的机会,从而允许针对特定任务和个性化用户特征来定制语言模型以进行增强和自定义。翻译 2023-12-17 19:05:06 · 285 阅读 · 0 评论 -
LORAHUB: EFFICIENT CROSS-TASK GENERALIZATION VIA DYNAMIC LORA COMPOSITION翻译
自然语言处理的重大进展在很大程度上是由大规模预训练的语言模型(LLM)(例如OpenAI GPT,Flan-T5和LLaMA)推动的。这些模型在多个NLP任务中展示了顶级性能。但是,由于它们巨大的参数大小,从而提出了有关计算效率和微调过程中内存使用情况的问题。为了减轻这些挑战,Low-Rank Adaptation(LoRA)已成为一种有效的微调技术。通过降低内存需求和计算成本,它可以加快LLM训练。翻译 2023-08-16 03:02:10 · 217 阅读 · 0 评论 -
A Survey of Quantization Methods for Efficient Neural Network Inference翻译
在过去十年中,我们观察到神经网络(NN)在各种类型问题上准确率显着提高,这通常是通过过度参数化的模型来实现。尽管这些过度参数化的NN模型的准确性已显着增加,但这些模型的巨大尺寸意味着无法在许多资源受限的应用中部署它们。这为普适深度学习的实现产生了一个问题,因为需要在资源受限的环境中以较低的能量消耗和高准确率来实时推理。普适深度学习被期望能够对广泛的应用产生重大影响,例如实时智能医疗监测,自动驾驶,音频分析和语音识别。以最优准确率实现高效且实时的NN,需要重新考虑NN模型的设计,训练和部署。翻译 2023-07-05 16:29:03 · 310 阅读 · 0 评论 -
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression翻译
预训练大语言模型(LLM)在特定任务上的性能获得迅速提升,并且如果使用指令提示,则在一般任务上也表现良好。虽然改进的性能可以归因于训练数据和参数的扩展,而最近的趋势则集中在训练具有更多数据的小模型上,这些模型在推理时更容易使用。例如,在1T token上训练的7B参数模型LLaMA尽管比GPT-3小25倍,但其平均性能仅略低于GPT-3。LLM压缩的当前技术可以在保留其性能的同时进一步缩小约4倍的参数。这会产生与最大的GPT-3模型相当的性能水平,并且在内存需求方面有重大减少。翻译 2023-06-20 17:16:57 · 702 阅读 · 0 评论