Cost-Performance Optimization for Processing Low-Resource Language Tasks Using Commercial LLMs

摘要

对于高资源语言(HRL),大型语言模型(LLM)表现出令人印象深刻的零/少镜头推理和生成质量。他们中的一些人已经接受了低资源语言(LRL)的培训,并且表现不佳。由于训练LLM的成本过高,它们通常被用作网络服务,客户端按输入和输出令牌的计数收费。令牌的数量在很大程度上取决于脚本和语言,以及LLM的子单词词汇表。我们发现LRL在定价上处于劣势,因为众所周知的LLM为LRL产生的代币比HRL多。这是因为目前大多数流行的LLM都是针对HRL词汇进行优化的。我们的目标是创造一个公平的竞争环境:降低当代LLM中处理LRL的成本,同时确保不承诺预测和生成质量。为了减少LLM处理的代币数量,我们考虑了LRL到HRL的代码混合、翻译和音译。我们使用IndicXTREME数据集进行了广泛的研究,涵盖了15种印度语,同时使用GPT-4(迄今为止发布的最昂贵的LLM服务之一1)作为商业LLM。我们观察并分析了多种语言和任务中涉及代币数量、成本和质量的有趣模式。我们表明,选择与LLM交互的最佳策略可以通过~90%,同时与原始LRL中的LLM通信相比,提供更好或类似的性能。

1 引言

大型语言模型(LLM),如GPT-4(Ope-nAI等人,2023)、ChatGPT、Llama-2(Touvron等人,2023),PaLM(Chowdhery等人,2022),interalia,以其卓越的零/少镜头推理和生成能力,对NLP的发展做出了巨大贡献。LLM还可以减少对昂贵的人工生成黄金数据的依赖,以微调各种下游任务的模型,特别是对于黄金数据稀缺的LRL。然而,我们的经验表明,这一好处被一个问题所抵消。像GPT-4这样的商业LLM服务按照与客户端交换的代币数量收费。从客户端到LLM的典型消息包括一个任务描述或指令,后面是零个或多个“上下文示例”中的少数镜头,以及要解决的有效载荷实例。

LLM的输出标记表示对有效负载实例的解析。客户端和LLM服务之间交换的令牌数量取决于LLM的(子词)词汇表以及客户端使用的语言。如果客户的语言是LRL,LLM很可能会将LRL标记大量划分为子词,因为LRL子词在当今最流行的LLM中具有少数地位(Hong et al.,2021)。因此,与HRL客户端相比,LLM的使用将是昂贵的。尽管在推理和指令跟随能力方面有了巨大的飞跃,但GPT-4以与其前身的多语言模型mBERT和XLM-R相同的方式和原因,有效地区分了LRL客户端(Conneau等人,2020)。这导致LRL客户在定价方面(如果不是在质量方面)处于不利地位。我们的目标是减少这种不平等现象。我们选择GPT-4是因为它是最昂贵(但最受欢迎)的com之一商业黑盒LLM即服务。使用GPT-4 8K上下文模型API的成本为每1000个输入令牌0.03美元,每1000个输出令牌0.06美元。对于32K上下文模型,成本高达每1000个输入令牌0.06美元,每1000个输出令牌0.12美元。因此,将维基百科(约60亿个代币)汇总到其一半大小的任务将花费72万美元和36万美元,GPT-4的上下文长度分别为32K和8K。

我们的初步研究表明,GPT-4为不同印度语言的源句翻译生成了双宇宙数量的标记。如果直接与LLM通信,我们还可以获得这些语言中默认LRL任务性能的概要文件。面对我们无法影响的黑匣子服务,我们可以使用的工具是预处理从客户端到LLM服务的LRL消息。具体来说,我们试图通过减少客户端和LLM之间交换的令牌数量来降低API成本,同时努力保持任务质量。这可以通过多种方式实现,如图1所示,稍后将详细介绍。

为了比较这些方法,我们定义(在等式1中)一个称为“相对性能成本比”(RTPCR)的度量,该度量指定了我们可以获得的任务性能,给定了我们使用各种预处理方法M相对于使用原始LRL文本所支付的令牌驱动成本。我们不再直接将LLM服务访问成本与内部LLM的运营成本进行比较,因为后者取决于太多难以建模的因素,如电源和冷却成本(以及与LLM服务的比较)。

与使用开源机器翻译工具的免费翻译相比,在推理之前使用LLM的显式实例翻译将产生额外的成本。另一种选择是隐式翻译,在隐式翻译中,我们指示LLM在解决有效载荷实例之前,在后台将其翻译成英语,从而节省显式翻译成本。(我们不要求LLM提供翻译版本。)我们观察到,使用隐式翻译的改进落后于隐式翻译。因此,在LLM服务之外使用专用的LRL-to-HRL翻译器可以节省成本并提高LRL任务质量。如果LRL没有高质量、开源的翻译器,那么可能会出现问题,而依靠LLM进行翻译将增加成本并降低RTPCR。我们接下来将向第三个方向出发:混合LRL和HRL单词有帮助吗?为了降低成本,我们可以使用LRL-HRL或LRL-LRL词典,因为这样的翻译通常与上下文无关。最后,作为选择性单词混合的自然伴侣,我们尝试了一种音译技术,将整个LRL消息音译成拉丁文字。毕竟,与“纯”LRL相比,用于训练LLM的巨大语料库更有可能包含重音译成拉丁文字的LRL单词,这些单词与本地LRL和HRL单词混合。

我们总结我们的贡献。(1) 我们发现了希望解决LRL问题的LLM客户面临的一个关键性价比劣势。(2) 我们使用我们引入的一种称为RTPCR的新措施,证明了GPT-4相对于15种用于不同分类任务的印度语言存在这种缺点。(3) 我们对隐式和显式客户端消息翻译进行了实验,并比较了它们的RTPCR评分,以表明免费翻译器可以降低成本并提高性能。(4) 我们对单词混合和音译进行了实验,结果表明两者都有助于降低成本,但音译可能会对性能产生影响。(5) 除了攻击性表现外,我们还提供了许多案例研究,其中有有趣的发现:不同印度语言的to ken计数差异很大,翻译成英语可能会增加和减少英语单词的数量,这取决于源语言;LLM的性能对语法相当敏感。

2 相关工作

最近的LLM,如ChatGPT、GPT-4(OpenAI等人,2023年)、LLAMA-2(Touvron等人,2023)、Palm(Chowdhery等人,2022年)、Bloom(Scao等人,2022年)等,在语言和任务上表现出令人难以置信的零和少数拍摄能力。尽管他们在高资源语言(HRL)中的表现令人印象深刻,但研究发现,低资源语言(LRL)的表现水平并不相同。

各种基准数据集,如Xtreme(Hu等人,2020年)、Xtreme-R(Ruder等人,2021年)和Xglue(Liang等人,2020)已设计用于测量Multilin Gual LLM的跨语言能力。LRLS中也提供了印度语言的基准,例如IndicXtreme(Doddapaneni等人,2023年)。基准也适用于其他语言家族,如非洲(Ade Lani等人,2022年)和印度尼西亚语(Wilie等人,2020年)。在这项工作中,我们使用IndicXtreme。MEGA(Ahuja等人,2023年)见证了将测试实例翻译成英语时任务性能的提高。他们说,他们使用Bing Trans Lator(不是开源工具)从性能角度进行实验。与他们不同,我们的重点不仅是性能,还包括成本。由于使用GPT-4对LRL的成本很高,我们正在试验不同的技术,以在不影响性能的情况下降低成本。类似地,最近的一项研究(Huang等人,2023年)发现,用英语编写的提示比用其他低资源语言编写的提示表现更好。节俭的GPT(Chen等人,2023年)试图在不同的层面上解决GPT-4的成本问题,例如选择较低但在上下文中更有效的示例,用于很少的推断,隐藏以前的查询和未来使用的响应,或LLM级联,其中廉价的LLM首先尝试检查响应是否合理,如果之前的响应不令人满意,则仅适用于昂贵的响应。他们有过英语方面的经验,那里的单词没有太多的碎片。LRLS提出了一个陡峭的挑战,首先,我们需要通过控制LRL单词的过度碎片化来降低成本。

因此,可以应用FrugelGPT进一步提高成本。据我们所知,我们首先研究了以各种不同方式准备LRL输入实例并将其与LLM API成本相关时对性能的影响。

3 方法

在这项工作中,我们主要使用以下技术对原始LRL输入实例进行预处理,以减少生成的令牌数量。

3.1 Native

在这里,我们按照原始语言脚本中的原样传递查询实例。我们将此方案与以下所有方案进行比较。

3.2 翻译

在这里,我们在通过GPT-4之前翻译LRL输入实例。翻译时,我们考虑三种可能性。

使用开源MT:我们依靠现成的机器翻译工具将LRL翻译成英语。为此,我们使用IndicTrans2(Gala等人,2023)。

明确使用GPT-4:我们首先用GPT-4作为翻译器将LRL句子翻译成英语;然后我们将翻译的英语句子传递给GPT-4进行推理。

隐式使用GPT-4:在这里,我们的提示(参见附录图6)指示GPT-4“在其前提下”将LRL实例翻译成英语。如果它在理解LRL的立场方面面临困难。希望能节省一些费用,因为我们不要求英文翻译。

隐式翻译的主要问题是我们无法控制它选择翻译哪些LRL实例,也无法控制翻译的质量或效果。在这两种显式翻译方法之间,从成本的角度来看,开源机器翻译工具显然更好,但对于一些LRL来说,这种机器翻译可能并不容易获得。在这种情况下,使用GPT-4的显式翻译可能会有所帮助,但它会带来API调用提前进行翻译的额外成本负担。

3.3混合词

在这种方法中,如果一个LRL单词在LLM子单词词汇表中被过度分割(详见附录B中的算法1),那么我们将用相应的英语翻译替换该单词。我们将新输入称为Wordmix(En),因为它现在是一个“合成”文本,包含LRL和英语(或者更有利的LRL,比如印地语-Wordmix)单词的混合,因此得名。请注意,在单词混合法中,我们不需要任何翻译工具;一本LRL-HRL或LRL-LRL词典就足够了。极端情况是所有LRL单词都被单独翻译成英语——W2W。有关Wordmix(Hi)和W2W的结果,请参阅附录A。

3.4平移

在这种方法中,我们将LRL脚本音译为英语(拉丁脚本)。由于我们现在将处理拉丁脚本中的原始LRL输入实例,因此假设生成的令牌(如图1所示)将少于原始LRL脚本。因此,成本应该会降低。使用音译的另一个动机是GPT-4(和其他流行的LLM,尽管大多未公开)的训练语料库可能包括社交媒体或市场数据,其中包括大量拉丁文字的LRL文本。

3.5 RTPCR

为了在成本和性能方面相对于原生脚本对这些技术进行排名,我们设计了一个称为RTPCR(relative performance To cost Ratio)的指标:这里,Perf(M)和Perf(Native)分别表示方法M和自然LRL脚本的任务特定性能。类似地,Cost(M)和Cost(Native)分别表示方法M和本机LRL脚本所产生的成本。当M的性能优于本机时,RTPCR将很高,并且M的成本低于本机。相反,低RTPCR值表明M在性能方面滞后,但比使用本机文本产生的成本更高。表4显示了不同技术的RTPCR值。

4 实验和结果

4.1 数据集和评估指标

我们对IndicXTREME(Dodapaneni et al.,2023)基准数据集中可用的所有分类任务进行了实验(详细信息见表1)。这些任务包括两个单句分类任务(IndicSentiment、Alexa意图分类)和三个多句分类任务,即IndicCOPA、IndicXNLI和IndicXParaphrase。整个测试设置涵盖了15种印度语言。我们将准确度分数作为性能矩阵报告。附录讨论了与不同提示设计(图6)和GPT-4 API超参数(表6)相关的所有细节。

4.2 拉丁文脚本减少了令牌生成

在图2中,我们显示了如果一个句子以其自己的脚本通过GPT-4,通过开源MT和GPT-4翻译成英语,并转换成英语脚本,则每个单词生成的平均标记数。一般的观察结果是,当处理拉丁脚本(翻译或音译)中的实例时,令牌生成会大大减少。归约可以是2×到7×之间的任何值,具体取决于语言。另一个有趣的观察结果是,德拉威语的减少率更高,如马来阿拉姆语、泰米尔语、泰卢固语、卡纳达语等,而北印度语言的减少率相对较低,如印地语和孟加拉语。这可能意味着GPT-4在北印度语言方面比在南印度语言方面训练得更好。这里需要注意的另一件事是,尽管音译不一定能产生一个有效的英语单词,但它仍然有助于减少标记生成的数量。

4.3 翻译效果更好

在表2中,我们比较了GPT-4在不同技术下的准确性。我们还显示,与本机脚本相比,性能的变化(%)每个准确度值都很低。从表中可以清楚地看出,总的来说,翻译提高了GPT-4性能,无论是GPT-4的翻译、像IndicTrans这样的开源MT还是GPT-4进行的隐式翻译。然而,印度语翻译在大多数情况下占据了上风。从这一观察中可以清楚地看出,GPT-4比LRL更能理解英语文本。其次,考虑到我们的单词混合技术有点粗糙,并且可以通过改进单词替换启发式来进一步改进,单词混合(En)也表现出了与原生脚本相当的性能。Wordmix(Hi)的表现也与Wordmix(En)类似,但考虑到成本降低,后者更有成效(详细信息见附录A)。另一方面,在翻译中,表现会下降,这是意料之中的,因为我们不是在把这个词翻译成英语,而是在修改剧本。

4.4 开源MT降低成本

在表3中,我们比较了GPT-4推理的不同技术所产生的成本。由于成本与输入和输出生成的令牌成比例,我们使用每个查询实例生成的平均令牌作为成本的代理。在报告不同技术的每个实例的平均令牌生成的同时,我们还显示了与本机脚本相比,令牌生成的年龄变化百分比。在这里,观察结果很清楚:除了通过GPT-4进行翻译外,所有技术都降低了成本。这是意料之中的,因为在这种方法中,我们首先使用GPT-4显式翻译实例,然后使用GPT--4再次使用翻译后的实例进行分类。因此,在这里,我们需要承担使用GPT-4的翻译成本的额外负担.另一方面,通过IndicTrans(开源MT)进行翻译可将成本降低90%。但在没有这种免费MT的情况下,可以使用单词混合或音译,这也大大降低了成本。话虽如此,音译会影响性能(见表2)。

4.5 RTPCR有助于找到最佳性价比

表4显示了与Native脚本相比不同方法的RTPCR。在这里,IndicTrans的翻译显然是赢家,原因显而易见。这种情况下的翻译是免费的,当我们使用英语翻译的查询实例时,我们在表2中看到的GPT-4性能得到了改进。RTPCR得分最低的是使用GPT-4的翻译,因为尽管翻译后性能有所提高,但我们为翻译支付的成本超过了性能增益。传输的RTPCR也很高——尽管性能有所下降,但与使用本机脚本相比,它显著降低了成本。用于wordmix和通过GPT-4的隐式翻译的RTPCR也优于原生(RTPCR为1),因为wordmix的性能与原生类似,但降低了成本。另一方面,GPT-4的隐式翻译成本与原生脚本相同,但隐式翻译的性能增益更多。

4.6 结果分析

在表5中,我们展示了一些例子,涵盖了我们方法中的不同案例。前两个例子与翻译方法有关。

如前所述,翻译可以提高推理性能;然而,这完全取决于翻译的质量。在第一个例子中,孟加拉语的原句以讽刺的方式表达了负面情绪;GPT-4发现用孟加拉语理解它很有挑战性,因此产生了错误的分类。然而,当我们将其翻译成英语并且翻译质量相当好时,GPT-4能够正确地对其进行分类。在第二个例子中,尽管翻译在表面上看起来很好,但它忽略了原始印地语句子中潜在的固有负面情绪,导致了错误的预测。接下来的两种情况与单词混合技术有关。在这里,第一个讲的是一部电影中最糟糕的故事ভয়¿র (可怕)和েসরা উদাহরণ(很好的例子);GPT-4专注于错误的积极预测。尽管如此,当我们更换ভয়¿র 在“糟糕”的情况下,GPT-4会产生正确的结果。这种方法的一个问题是,我们在不考虑上下文的情况下,将原句中的任何单词替换为其翻译,有时会产生无意义的句子。下面的例子显示了这样一种情况,其中单词混合产生了一个不连贯的奥迪亚英语单词混合句子,而GPT-4无法预测任何内容。最后的例子对应于引用时使用GPT-4的隐式翻译。在这里,孟加拉语的原始句子产生了错误的预测,但当我们指示GPT-4在后台将孟加拉语句子翻译成英语,以防在推理时发现难以理解母语脚本时,它会产生正确的结果。为了澄清,我们并没有明确地推出翻译来减少输出令牌的生成;这只是为了验证和说明该技术的有效性。

5 结论

本文研究了使用领先的商业LLM GPT-4解决不同印度语言的五个分类数据集的成本。虽然GPT-4在这些任务上做得很好,但LRL单词变得高度碎片化,导致API调用的成本很高。本研究旨在保留GPT-4的性能优势,同时降低API成本。为此,我们尝试了不同的预处理技术,包括翻译、单词混合和音译。我们的研究发现,将整个LRL句子翻译成英语大大有助于降低成本,同时甚至提高性能(提供免费的MT系统将LRL翻译成HRL)。在没有这种MT系统的情况下,可以使用GPT-4甚至LRL-HRL字典隐式翻译来替换高度碎片化的单词以降低成本。在未来,我们希望更深入地探索wordmix,同时使用与源LRL相关的其他HRL。我们还计划专注于生成任务。

6局限性

尽管成本很高,但GPT-4被广泛认为比BLOOM(Scao et al.,2023)和GPT-neo等开源计数器部件提供了更好的质量。GPT-4经过比较,在包括文本处理和理解在内的多种应用场景中都优于BARD 3.出于这个原因,为了控制成本,我们只试验了一种商业LLM,GPT-4。尽管这将显著增加实验成本,但将其他付费LLM纳入实验设置将使我们的观察更加复杂。此外,我们的单词混合技术,即在不考虑句子上下文的情况下,将LRL单词与翻译一起重新放置,是粗糙的。它有时会影响句子结构。在考虑句子上下文的同时重读一个单词或短语会更合适。在这项工作中,我们只关注印度语言。尽管我们涵盖了多达15种语言,但一个直接的解释可以用来检验世界各地其他LRL的假设。此外,在任务方面,研究翻译或混词文本生成任务的效果可能会有进一步的发现。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值