【LLM 论文】CREA-ICL：利用跨语言检索来增强小语种的 ICL 能力

yubinCloud

已于 2024-05-02 19:00:07 修改

阅读量697

点赞数 9

分类专栏： LLM Research 文章标签：人工智能语言模型自然语言处理 RAG

于 2024-05-02 16:54:44 首次发布

本文链接：https://blog.csdn.net/qq_45668004/article/details/138394434

版权

LLM Research 专栏收录该内容

43 篇文章 8 订阅

订阅专栏

论文提出了一种名为CREA-ICL的方法，通过跨语言检索和共享嵌入空间，利用高资源语言的样本帮助低资源语言模型（如孟加拉语）改善In-ContextLearning性能。通过计算相似度并检索相关文档，提供exemplars来指导LLMs处理低资源语言任务。

摘要由CSDN通过智能技术生成

论文：From Classification to Generation: Insights into Crosslingual Retrieval Augmented ICL
⭐⭐⭐⭐
NeurIPS 2023, arXiv:2311.06595

文章目录

- 论文速读
- 总结

论文速读

有很多外国语言因为其语言复杂性、标记数据集的缺乏以及数据重复等问题，LLM 在这些低资源语言上的 instruction-following 的能力会变差，进而限制它们的 In-Context Learning（ICL）的表现。

为了解决低资源语言（如孟加拉语）在大型语言模型（LLMs）的上下文学习（ICL）性能受限的问题，本文提出了跨语言检索增强的上下文学习（CREA-ICL），其思路是：对于一个低资源语言的 input test $q$ ，使用 embedding encoder 将其映射到一个 shared embedding space 中，然后利用 cosine similarity 计算它与高资源语言的 corpus 的文档相似度，从中检索出 top-k 个文档，然后利用 prompt 把这些高资源语言作为 ICL 的 exemplars，实现让 LLM 去解决 input test 的问题。

框架图示如下：

CREA-ICL 框架