诸神缄默不语-个人CSDN博文目录
诸神缄默不语的论文阅读笔记和分类
论文名称:Don’t Trust ChatGPT when Your Question is not in English: A Study of Multilingual Abilities and Types of LLMs
ArXiv网址:https://arxiv.org/abs/2305.16339
数据集:https://github.com/Senyu-Li/LLM-Multilingual-Types
本文是2023年EMNLP论文。
本文主要探究LLM在不同语种上的表现,并提出了prompt back-translation (RBT) method。
实验结果表明,LLM(ChatGPT)是subordinate类型双语者(见本博文第2章),大意就是它以英语来储存知识,对于其他语言其实都是通过英语进行翻译后得到答案。
对于推理和知识获取任务,LLM能够跨语言给出正确的回答;但对涉及翻译的任务(需要语言知识的任务,Articulation)就不行。
1. 任务分类
推理任务就是数学题、编程、常识推理等问题,可以用universal language elements或者通用生活经验和常识,与特定语言无关。
知识获取任务:从LLM中检索知识(就当是KB)factual knowledge checking, knowledgefocused question answering, and named entity recognition
articulation任务:日常对话,涉及语用学和文化差异,如写作。summarization, dialogue generation, paraphrasing, and style writing
Translation Equivariant (TE) and Translation Variant (TV) tasks
来回翻译不会产生变化的就是equivariant
本文研究的TV任务主要是letter writing and pun understanding
2. 双语使用者分类
双语使用者可分为:compound, coordinate, and subordinate bilinguals
不同人看双语的概念可以参考这张图:
3. 检测LLM双语能力:回译和解释回译
prompt translation (PT) and response backtranslation (RBT)
评估LLM表现和跨语言一致性
PT
RBT:翻译→解释新语言→回译,与原语言生成的解释比较(相似度)
根据TE和RBT的效果看LLM是哪种“双语使用者”
4. 实验
直接在网站上做的实验……因为免费。
真拼(穷)啊。
4.1 数据集
推理:从GSM8K和CommonsenseQA里各随机抽取50个样本,翻译到多语言
知识获取:WebQuestions中随机抽取50个样本,改成多选题格式
Puns:JOKER@CLEF 2022的多语言样本
Articulation:中英文岗位求职信,结果是由母语人士人工评估的
4.2 结果
5次实验投票
评估指标:用ChatGPT翻译成英文后的BERT表征的余弦相似度
↑可证明英文prompt下LLM推理和检索效果更好
↑常识推理:LLM结果依赖于英文
知识获取:没有类似趋势
写求职信:
↑措辞很不当,有大量机翻英译中
↑ChatGPT几乎全预测出阳性结果,基本就是摁编,靠location来圆故事
还发现ChatGPT本质上就是摁翻译英文……所以ChatGPT是subordinate multilingualism,因此直接用英文prompt能减少误差传播
检测笑话的案例分析:
认为还是数据集中非英文的不够多。
5. 结论
我们的目标是构建compound类型的LLM,这需要平行语料、更多语言和模态的数据、新的学习方法、实体链接,可以采用对比学习等方法。
我(博文作者)认为这篇文章的启示就是尽量用英语来与LLM进行问答……要不是我懒,我就这么办了。