Re67：读论文 Don‘t Trust ChatGPT when Your Question is not in English: A Study of Multilingual Abilities

最新推荐文章于 2024-08-07 14:48:41 发布

诸神缄默不语

最新推荐文章于 2024-08-07 14:48:41 发布

阅读量704

点赞数 13

分类专栏：人工智能学习笔记文章标签： chatgpt 人工智能

本文链接：https://blog.csdn.net/polarisrisingwar/article/details/135752012

版权

人工智能学习笔记专栏收录该内容

243 篇文章 259 订阅

订阅专栏

诸神缄默不语-个人CSDN博文目录
 诸神缄默不语的论文阅读笔记和分类

论文名称：Don’t Trust ChatGPT when Your Question is not in English: A Study of Multilingual Abilities and Types of LLMs

ArXiv网址：https://arxiv.org/abs/2305.16339
数据集：https://github.com/Senyu-Li/LLM-Multilingual-Types

本文是2023年EMNLP论文。

本文主要探究LLM在不同语种上的表现，并提出了prompt back-translation (RBT) method。
实验结果表明，LLM（ChatGPT）是subordinate类型双语者（见本博文第2章），大意就是它以英语来储存知识，对于其他语言其实都是通过英语进行翻译后得到答案。
对于推理和知识获取任务，LLM能够跨语言给出正确的回答；但对涉及翻译的任务（需要语言知识的任务，Articulation）就不行。

1. 任务分类

在这里插入图片描述
推理任务就是数学题、编程、常识推理等问题，可以用universal language elements或者通用生活经验和常识，与特定语言无关。
知识获取任务：从LLM中检索知识（就当是KB）factual knowledge checking, knowledgefocused question answering, and named entity recognition
articulation任务：日常对话，涉及语用学和文化差异，如写作。summarization, dialogue generation, paraphrasing, and style writing

在这里插入图片描述
Translation Equivariant (TE) and Translation Variant (TV) tasks
来回翻译不会产生变化的就是equivariant
本文研究的TV任务主要是letter writing and pun understanding

2. 双语使用者分类

双语使用者可分为：compound, coordinate, and subordinate bilinguals
不同人看双语的概念可以参考这张图：
在这里插入图片描述

3. 检测LLM双语能力：回译和解释回译

prompt translation (PT) and response backtranslation (RBT)
评估LLM表现和跨语言一致性

在这里插入图片描述
PT
RBT：翻译→解释新语言→回译，与原语言生成的解释比较（相似度）

根据TE和RBT的效果看LLM是哪种“双语使用者”
在这里插入图片描述

4. 实验

直接在网站上做的实验……因为免费。
真拼（穷）啊。

4.1 数据集

推理：从GSM8K和CommonsenseQA里各随机抽取50个样本，翻译到多语言
知识获取：WebQuestions中随机抽取50个样本，改成多选题格式
Puns：JOKER@CLEF 2022的多语言样本
Articulation：中英文岗位求职信，结果是由母语人士人工评估的

4.2 结果

5次实验投票

评估指标：用ChatGPT翻译成英文后的BERT表征的余弦相似度

在这里插入图片描述
↑可证明英文prompt下LLM推理和检索效果更好

在这里插入图片描述
↑常识推理：LLM结果依赖于英文
知识获取：没有类似趋势

写求职信：
在这里插入图片描述

在这里插入图片描述
↑措辞很不当，有大量机翻英译中

在这里插入图片描述
↑ChatGPT几乎全预测出阳性结果，基本就是摁编，靠location来圆故事
还发现ChatGPT本质上就是摁翻译英文……所以ChatGPT是subordinate multilingualism，因此直接用英文prompt能减少误差传播

检测笑话的案例分析：
在这里插入图片描述

认为还是数据集中非英文的不够多。

5. 结论

我们的目标是构建compound类型的LLM，这需要平行语料、更多语言和模态的数据、新的学习方法、实体链接，可以采用对比学习等方法。
我（博文作者）认为这篇文章的启示就是尽量用英语来与LLM进行问答……要不是我懒，我就这么办了。

诸神缄默不语

关注

13
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
0
评论
Re67：读论文 Don‘t Trust ChatGPT when Your Question is not in English: A Study of Multilingual Abilities

《Don‘t Trust ChatGPT when Your Question is not in English: A Study of Multilingual Abilities》论文阅读笔记
复制链接

扫一扫