Black-Box Tuning for Language-Model-as-a-Service

514 篇文章 3 订阅

已下架不支持订阅

本文是LLM系列的文章,针对《Black-Box Tuning for Language-Model-as-a-Service》的翻译。

语义模型即服务的黑盒调整

摘要

GPT-3等超大的预训练语言模型(PTM)通常作为服务发布。它允许用户设计特定于任务的提示,通过一些黑盒API查询PTM。在我们称之为Language-Model-a-Service(LMaaS)的这种情况下,PTM的梯度通常不可用。我们是否可以通过仅访问模型推理API来优化任务提示?本文提出了黑盒调整框架,通过无导数优化来优化输入文本前的连续提示。我们不是在原始的高维提示空间中进行优化(这对于传统的无导数优化来说是难以解决的),而是在随机生成的子空间中执行优化,因为大型PTM的本征维数较低。实验结果表明,在少数标记样本上使用RoBERTa的黑匣子调整不仅在上下文学习中显著优于手动提示和GPT3,而且超过了基于梯度的对应方法,即提示调整和全模型调整。

1 引言

2 背景

3 方法

4 实验

5 讨论与未来工作

在本节中,我们分别在(1)无导数优化和(2)基于提示的学习的背景下讨论我们提出的方法。通过与这两条研究线进行比较,我们强调了未来可以改进这项工作的一些方向。
与以前的无导数方法的比较。我们提出的方法与之前通过随机嵌入解决高维无导数优化问题的工作框架相同。相反,我们通过从均匀分布而不是正态分布采样来设置随机嵌入A,并使用CMA-ES在生成的子空间中执行优化

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

已下架不支持订阅

这篇论文主要介绍了一种稀疏结构搜索的方法来有效地调整深度神经网络中的参数,以达到更好的性能和更高的效率。作者将该方法称为Pruning with Neuron Selectivity Ratio (PNSR)。该方法的主要思想是通过对神经元的选择性比率进行剪枝,来寻找最优的网络结构。 具体来说,PNSR方法首先训练一个初始的完整模型,然后通过计算每个神经元的选择性比率来确定哪些神经元可以被剪枝。选择性比率是指在训练过程中神经元被激活的次数与总共经历的迭代次数之比。这个比率越高,说明这个神经元在网络中的作用越大,越不应该被剪枝。根据选择性比率,可以将网络中的神经元分为三类:保留、可剪枝和不可剪枝。其中保留的神经元直接保留在模型中,不可剪枝的神经元则不能被剪枝,而可剪枝的神经元则可以被剪枝,并且剪枝后不会影响网络的性能。 接下来,PNSR方法使用一种叫做“剪枝重训练”的策略来进一步优化网络结构。这种策略的基本思想是先剪枝掉一些神经元,然后重新训练网络,使其在剪枝后的结构上取得最佳性能。具体来说,PNSR方法在剪枝后使用一种叫做“结构化剪枝”的方法来调整网络的结构,使得剪枝后的网络结构更加紧凑和简单。然后,PNSR方法使用该结构再次训练网络,直到网络达到最佳性能。 最后,作者在CIFAR-10和ImageNet数据集上对PNSR方法进行了实验。实验结果表明,PNSR方法可以显著减少模型的参数数量,同时保持网络性能不变或稍微下降。这表明,PNSR方法可以有效地提高深度神经网络的效率,并有望在实际应用中得到广泛应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值