综述:小模型在LLMs时代的作用

What is the Role of Small Models in the LLM Era: A Survey

  • 大模型的问题:扩大模型大小可以提升模型性能,但是会伴随算力的指数增加。

  • 较小模型的问题:通用能力差,但是专一性强。

 这项工作探讨的两个视角:

  ①小模型增强大模型。

  ②大模型增强小模型

小模型增强大模型

a. 数据增强

 数据的有限性,更多研究者的关注点由数据量转移到数据质量上。(数据质量比数据量优先级更高)
 通过优化数据提高模型性能。(选择、修剪、筛选 数据优化A Survey on Data Selection for Language Models)

现有数据处理方法
  •   黑名单过滤和MinHash 去重(D4: Improv-ing llm pretraining via document de-duplication and diversification. )

  •   使用分类器评估数据质量;重点关注噪声、有毒和私密数据的删除(Data selection for language models via importance resampling.)

  •  使用代理语言模型计算困惑度得分 筛选出高质量数据(When less is more: Investigating data pruning for pretraining llms at scale)

数据再权重

 不同的文本来源分配不同的权重,有效调整采样概率,增强预训练在各个领域的泛化(Doremi: Optimizing data mixtures speeds up language model pretraining.)

指令微调数据的选择

 使用小模型根据质量、覆盖范围、必要性等方法评估筛选数据。(MoDS 、 DeBERTa)

b. 小模型作为监督者知道大模型的学习过程weak to strong

​  (1). 根据小模型评估大模型的输出,通过强化学习调整偏好。

​  (2). 通过一组弱的教师模型,训练一个较强模型。

​  (3). 小模型学习偏好和非偏好的矫正残差,直接应用上游的语言模型,与人类偏好对齐。

c. 检索增强生成

​  解决①LLMs记忆特定知识的能力有限②领域专业知识或最新信息缺失。

​  检索源类别:文本文档、特定领域语料、跨语言文本。

​  问题:对检索质量非常敏感
​  未来知识库方向:多模态场景。

大模型增强小模型

①蒸馏

②数据合成

训练数据生成
  • ①LLMs生成数据集②使用生成的数据集训练小模型(Data augmentation using llms:Data perspectives,)
  • 生成标签而不是整个训练数据集

数据增强

  对文本进行通义替换或重写生成额外的训练样本

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值