Re67:读论文 Don‘t Trust ChatGPT when Your Question is not in English: A Study of Multilingual Abilities

诸神缄默不语-个人CSDN博文目录
诸神缄默不语的论文阅读笔记和分类

论文名称:Don’t Trust ChatGPT when Your Question is not in English: A Study of Multilingual Abilities and Types of LLMs

ArXiv网址:https://arxiv.org/abs/2305.16339
数据集:https://github.com/Senyu-Li/LLM-Multilingual-Types

本文是2023年EMNLP论文。

本文主要探究LLM在不同语种上的表现,并提出了prompt back-translation (RBT) method。
实验结果表明,LLM(ChatGPT)是subordinate类型双语者(见本博文第2章),大意就是它以英语来储存知识,对于其他语言其实都是通过英语进行翻译后得到答案。
对于推理和知识获取任务,LLM能够跨语言给出正确的回答;但对涉及翻译的任务(需要语言知识的任务,Articulation)就不行。

1. 任务分类

在这里插入图片描述
推理任务就是数学题、编程、常识推理等问题,可以用universal language elements或者通用生活经验和常识,与特定语言无关。
知识获取任务:从LLM中检索知识(就当是KB)factual knowledge checking, knowledgefocused question answering, and named entity recognition
articulation任务:日常对话,涉及语用学和文化差异,如写作。summarization, dialogue generation, paraphrasing, and style writing

在这里插入图片描述
Translation Equivariant (TE) and Translation Variant (TV) tasks
来回翻译不会产生变化的就是equivariant
本文研究的TV任务主要是letter writing and pun understanding

2. 双语使用者分类

双语使用者可分为:compound, coordinate, and subordinate bilinguals
不同人看双语的概念可以参考这张图:
在这里插入图片描述

3. 检测LLM双语能力:回译和解释回译

prompt translation (PT) and response backtranslation (RBT)
评估LLM表现和跨语言一致性

在这里插入图片描述
PT
RBT:翻译→解释新语言→回译,与原语言生成的解释比较(相似度)

根据TE和RBT的效果看LLM是哪种“双语使用者”
在这里插入图片描述

4. 实验

直接在网站上做的实验……因为免费。
真拼(穷)啊。

4.1 数据集

推理:从GSM8K和CommonsenseQA里各随机抽取50个样本,翻译到多语言
知识获取:WebQuestions中随机抽取50个样本,改成多选题格式
Puns:JOKER@CLEF 2022的多语言样本
Articulation:中英文岗位求职信,结果是由母语人士人工评估的

4.2 结果

5次实验投票

评估指标:用ChatGPT翻译成英文后的BERT表征的余弦相似度

在这里插入图片描述
↑可证明英文prompt下LLM推理和检索效果更好

在这里插入图片描述
↑常识推理:LLM结果依赖于英文
知识获取:没有类似趋势

写求职信:
在这里插入图片描述

在这里插入图片描述
↑措辞很不当,有大量机翻英译中

在这里插入图片描述
↑ChatGPT几乎全预测出阳性结果,基本就是摁编,靠location来圆故事
还发现ChatGPT本质上就是摁翻译英文……所以ChatGPT是subordinate multilingualism,因此直接用英文prompt能减少误差传播

检测笑话的案例分析:
在这里插入图片描述

认为还是数据集中非英文的不够多。

5. 结论

我们的目标是构建compound类型的LLM,这需要平行语料、更多语言和模态的数据、新的学习方法、实体链接,可以采用对比学习等方法。
我(博文作者)认为这篇文章的启示就是尽量用英语来与LLM进行问答……要不是我懒,我就这么办了。

  • 13
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

诸神缄默不语

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值