LLM在价值判断问题上的表现:一致性探讨

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
本周精选了5篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain?f=cs

1.FBI-LLM: Scaling Up Fully Binarized LLMs from Scratch via Autoregressive Distillation

本文介绍了一种名为FBI-LLM的模型,这是首次成功地从零开始训练大规模的二进制语言模型,以匹配其全精度对应物(如FP16或BF16)在基于Transformer的LLM中的性能。它通过使用自回归蒸馏(AD)损失来实现这一点,同时保持等效的模型维度(130M、1.3B、7B)和训练数据量,以实现竞争力在困惑度和任务特定有效性方面。有趣的是,通过分析训练轨迹,我们发现预训练权重对于从零开始训练二进制LLM是不必要的。这项研究鼓励了一种新的计算框架,并可能促进未来为完全1位LLM量身定制的专用硬件的设计。
在这里插入图片描述
链接:https://www.aminer.cn/pub/668deb6d01d2a3fbfc1601f8/?f=cs

2.Harnessing the Power of LLMs: Automating Unit Test Generation for High-Performance Computing

本文研究了在并行和高效计算软件,尤其是科学应用软件中,自动化生成单元测试的方法。这些软件由于用户基数小、多样化以及逻辑复杂,使得单元测试难以广泛应用且成本高昂。针对这一问题,研究者们利用大型语言模型(LLM)的编程和测试能力,提出了一个自动化生成此类软件单元测试的方法。他们研究了Davinci(text-davinci-002)和ChatGPT(gpt-3.5-turbo)生成C++并行程序单元测试的能力,结果表明LLM能够生成大部分正确和全面的单元测试,尽管存在一些局限性,例如重复的断言和空白的测试用例。
在这里插入图片描述
链接:https://www.aminer.cn/pub/668c9ec201d2a3fbfc3aa1f1/?f=cs

3.Are Large Language Models Consistent over Value-laden Questions?

本文探讨了大型语言模型(LLM)在处理带有价值判断的问题时是否具有一致性。尽管有人认为LLM会偏向某些价值观,但也有人认为LLM过于不一致,不能模拟特定的价值观。为了回答这个问题,研究者首先定义了价值一致性的概念,即在一个问题、相关话题的问题、多选题和开放式问题使用案例以及一个问题在不同语言翻译之间答案的相似度。然后,研究者将这些标准应用于几个大型( >=34b)开放LLM,包括llama-3和gpt-4o,使用8000个问题跨越300多个主题。与先前的研究不同,研究者发现模型在相似问题、使用案例、翻译以及在主题内的一致性相对较高。然而,仍存在一些不一致性。模型在非争议性话题(例如美国的“感恩节”)上的一致性比在有争议的话题(例如“安乐死”)上要高。基础模型在一致性上优于微调模型,并且在所有主题上的一致性保持一致,而微调模型在某些话题(如“安乐死”)上的一致性不如其他话题(如“妇女权益”),这与我们的人类受试者(n=165)一致。
在这里插入图片描述
链接:https://www.aminer.cn/pub/668601cc01d2a3fbfcd35427/?f=cs

4.T-FREE: Tokenizer-Free Generative LLMs via Sparse Representations for Memory-Efficient Embeddings

本文提出了一种名为T-FREE的新型生成性语言模型,旨在通过稀疏表示和字符三组激活模式直接嵌入单词,从而解决现有语言模型中存在的固有缺陷和问题。这些问题主要包括计算开销、词汇使用效率低下、嵌入和头部层过大,以及其性能偏向于参考语料库,从而降低了对代表性不足语言的有效性。T-FREE利用形态相似性,允许对嵌入层进行强烈压缩,并在我们的详尽实验评估中表现出与参数减少超过85%的竞争力。此外,T-FREE在跨语言迁移学习方面也显示出显著的改进。
在这里插入图片描述
链接:https://www.aminer.cn/pub/667e191d01d2a3fbfc79d205/?f=cs

5.How Does Quantization Affect Multilingual LLMs?

本文研究了量化技术对多语言大型语言模型的影响。尽管大量研究关注了量化后的英语任务影响,但尚未有研究调查量化技术对跨语言的影响。研究者对量化后的多语言 LLM 进行了全面分析,重点关注它们在不同语言和规模下的表现。通过自动基准测试、LLM-as-a-Judge 方法和人类评估进行研究,发现:(1)量化的负面影响在人类评估中明显,自动指标严重低估了这种损害:在现实 prompt 上,人类评估者报告了 1.7 的下降;(2)不同语言受到量化影响不同,非拉丁文字语言受影响最大;(3)具有挑战性的任务,如数学推理,退化最快。由于为低计算模型提供服务的能力对于 NLP 技术的广泛全球采用至关重要,因此我们的结果强调了将多语言性能作为评估高效模型的关键标准。
在这里插入图片描述
链接:https://www.aminer.cn/pub/668601d101d2a3fbfcd35bc6/?f=cs


AMiner AI入口:
https://www.aminer.cn/chat/g/explain?f=cs

  • 18
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值