Knowledge Card: Filling LLMs‘ Knowledge Gaps with Plug-in Specialized Language Models

最新推荐文章于 2024-06-06 09:42:12 发布

UQI-LIUWJ

最新推荐文章于 2024-06-06 09:42:12 发布

阅读量731

点赞数 15

分类专栏：论文笔记文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/qq_40206371/article/details/137459686

版权

272 篇文章 65 订阅

订阅专栏

ICLR 2024 （oral） reviewer评分 888

1 intro

大模型已经展示出在模型参数中编码世界知识的能力
- 然而，它们在知识密集型任务和环境中仍面临各种挑战：
  - 容易产生幻觉
  - 难以编码长尾事实
  - 不能轻松更新新兴知识

提出了KNOWLEDGE CARD
- 通过整合更小但专业化的语言模型，为通用型LLMs赋予模块化和协作源的知识
- 越来越多强大的LLMs API已经发布，但是他们不直接可访问，并且训练或调整成本过高
  - ——>KNOWLEDGE CARD专注于增强黑盒LLMs以丰富其知识能力

论文认为知识是模块化的，通用语言模型应该与模块化的即插即用知识存储库相结合，允许用户协作添加、删除、编辑或更新信息
——>论文创建知识卡片
- 这是一种专门的语言模型LM，比黑盒LLMs小得多
- 它们在来自多个领域和来源的多元化知识语料库上进行训练
具体来说，获得了n张知识卡片 $C = \{c_1, c_2, \ldots, c_n\}$ ，每一张都是从一个现有的语言模型cheakpoint开始，并在特定的知识语料库Di 上进一步训练【causal language modelling，也即自回归训练】
给定一个查询q到LLM，这些知识卡片被选择性激活并使用以生成提示回应
- 给定查询q，专门的LM定义了一个映射c(q)：q → dq ，其中q被用作提示来生成知识文档dq的延续
通过这种方式，可以添加、移除或选择性激活不同知识卡片的方式，展示知识的模块化。

虽然期望知识卡片能生成与查询q相关且有帮助的背景信息，但LMs有时会偏离查询。
此外，只有少数知识卡片对于给定的查询是相关的。
——>论文提议根据相关性来选择和保留知识文档。
- 具体来说，给定一组由m个只是卡片生成的文档 $\{d_1, ..., d_m\}$ 和查询q，论文旨在保留最相关的top-k个文档并丢弃不相关的信息。
- 论文采用了一个单独的基于编码器的LM enc(·)来映射一个令牌序列到特征向量，同时使用余弦相似度sim(·,·)来衡量相关性。
  - 形式上，如果 i ∈ top-k（sim(enc(dj), enc(q))），保留di

现有工作大多将一个外部知识片段整合到LLMs中
而需要整合多个信息领域的任务，并不完全受现有范例的支持。
——>为了有效地整合来自多个渠道生成的文档，论文对知识文档进行修剪【概括总结系统，使用之前的模型】
- 这种修剪方法允许知识文档更好地整合到主LLM版本中，同时保持信息内容的完整性。

虽然贪婪地选择具有最高sd分数的ℓ个知识文档是直观的，但新知识可能得不到现有事实检查工具的良好支持
——>提出了top-k事实性抽样，以在对明显错误的知识文档保持严格的同时提供一定的灵活性
- 首先获得 $D^k$ 作为具有前k个事实性分数的知识文档集，其中k > ℓ是一个超参数
- 然后，在所有m个知识文档上定义一个采样概率分布
- 使用概率分布 $p(\tilde{d}_1|q),\cdots,p(\tilde{d}_m|q)$ 中采样 ℓ 个知识文档
  - 通过这种方式，严格排除了事实性得分非常低的知识文档，同时通过从得分接近顶部的知识中进行采样，增加了灵活性

提出了两种方法，用于将通用LLM与外部知识源整合。、
- bottom-up方法通过知识选择器来控制知识质量，启用多领域知识综合，
- top-down方法则在不总是需要外部知识的任务和领域中优势明显

关注