What is the Role of Small Models in the LLM Era: A Survey
-
大模型的问题:扩大模型大小可以提升模型性能,但是会伴随算力的指数增加。
-
较小模型的问题:通用能力差,但是专一性强。
这项工作探讨的两个视角:
①小模型增强大模型。
②大模型增强小模型
小模型增强大模型
a. 数据增强
数据的有限性,更多研究者的关注点由数据量转移到数据质量上。(数据质量比数据量优先级更高)
通过优化数据提高模型性能。(选择、修剪、筛选 数据优化A Survey on Data Selection for Language Models)
现有数据处理方法
-
黑名单过滤和MinHash 去重(D4: Improv-ing llm pretraining via document de-duplication and diversification. )
-
使用分类器评估数据质量;重点关注噪声、有毒和私密数据的删除(Data selection for language models via importance resampling.)
-
使用代理语言模型计算困惑度得分 筛选出高质量数据(When less is more: Investigating data pruning for pretraining llms at scale)
数据再权重
不同的文本来源分配不同的权重,有效调整采样概率,增强预训练在各个领域的泛化(Doremi: Optimizing data mixtures speeds up language model pretraining.)
指令微调数据的选择
使用小模型根据质量、覆盖范围、必要性等方法评估筛选数据。(MoDS 、 DeBERTa)
b. 小模型作为监督者知道大模型的学习过程weak to strong
(1). 根据小模型评估大模型的输出,通过强化学习调整偏好。
(2). 通过一组弱的教师模型,训练一个较强模型。
(3). 小模型学习偏好和非偏好的矫正残差,直接应用上游的语言模型,与人类偏好对齐。
c. 检索增强生成
解决①LLMs记忆特定知识的能力有限②领域专业知识或最新信息缺失。
检索源类别:文本文档、特定领域语料、跨语言文本。
问题:对检索质量非常敏感
未来知识库方向:多模态场景。
大模型增强小模型
①蒸馏
②数据合成
训练数据生成
- ①LLMs生成数据集②使用生成的数据集训练小模型(Data augmentation using llms:Data perspectives,)
- 生成标签而不是整个训练数据集
数据增强
对文本进行通义替换或重写生成额外的训练样本