DataGemma | 连接 LLM 与现实世界数据，应对 "幻觉" 挑战

谷歌开发者

于 2024-09-25 17:31:44 发布

阅读量964

点赞数 9

文章标签： mysql 数据库

本文链接：https://blog.csdn.net/googledevs/article/details/142536859

版权

作者 / Data Commons 负责人 Prem Ramaswami; 技术与社会高级副总裁 James Manyika

驱动当下 AI 创新的大语言模型 (LLM) 正日趋复杂。这些模型可以梳理大量文本并生成摘要，提出新的创意方向，甚至提供代码草稿。然而，尽管 LLM 拥有这些惊人的能力，有时也会信誓旦旦地提供不准确的信息。我们称这种现象为 "幻觉"，这是生成式 AI 的关键挑战。

我们将在本文中与您分享一些极具前景的研究进展，通过让 LLM 利用现实世界的统计信息去帮助减少幻觉，从而直接应对幻觉挑战。除了这些研究进展以外，我们也很高兴能发布 DataGemma，这是首个旨在将 LLM 与来自 Google Data Commons 的大量现实世界数据连接起来的开放模型。

Data Commons: 可信任的公开数据大型存储库

Data Commons 是一个公开可用的知识图谱，包含超过 2,400 亿个丰富的数据点，涵盖数十万个统计变量。该知识图谱从联合国 (UN)、世界卫生组织 (WHO)、疾病控制与预防中心 (CDC) 和人口普查局等可信组织获取公开信息。将这些数据集整合成一套统一的工具和 AI 模型，可以帮助政策制定者、研究人员和组织获得准确的见解。

Data Commons
https://datacommons.org/

我们可以把 Data Commons 当成一个庞大且持续扩展的数据库，包含从健康和经济到人口统计和环境等各种主题的可靠公开信息。您可以通过我们由 AI 驱动的自然语言界面，用自己的话术与这一数据库交互。例如，您可以查询非洲哪些国家的电力供应增长最多、美国各县居民收入与患糖尿病的关联性，或查询您想了解的相关数据问题。

由 AI 驱动的自然语言界面
https://blog.google/technology/ai/google-data-commons-ai/?utm_campaign=tech-content&src=Online/LinkedIn/linkedin_page&utm_medium=linkedin_post&utm_source=linkedin
非洲哪些国家的电力供应增长最多
https://datacommons.org/explore#q=Which%20countries%20in%20Africa%20have%20had%20the%20greatest%20increase%20in%20electricity%20access%3F
美国各县居民收入与患糖尿病的关联性
https://datacommons.org/explore#q=How%20does%20income%20correlate%20with%20diabetes%20in%20US%20counties%3F

Data Commons 如何帮助应对幻觉

随着生成式 AI 的应用日益广泛，我们的目标是通过将 Data Commons 整合进 Gemma，为上述体验奠定基础。Gemma 是 Google 最先进的轻量级、开放模型系列，采用与打造 Gemini 模型相同的研究和技术构建而成。这些 DataGemma 模型现在可供研究人员和开发者使用。

Gemma
https://ai.google.dev/gemma
Gemini
https://gemini.google.com/corp/app?hl=en
现在可供研究人员和开发者使用
https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643

DataGemma 将通过利用 Data Commons 的知识，使用两种不同的方法来增强 LLM 的事实性和推理能力，从而扩展 Gemma 模型的功能:

1. RIG (检索交错生成，Retrieval-Interleaved Generation) 可主动查询可信任来源并根据 Data Commons 中的信息进行事实核查，从而增强语言模型 Gemma 2 的功能。通过编程，当用户输入提示词并让 DataGemma 生成响应时，该模型可识别统计数据的实例并从 Data Commons 检索回答。虽然 RIG 不是最近才出现的方法，但在 DataGemma 框架中应用该方法是一种独特的实践。

△ 查询示例: "全球可再生能源的使用量是否增加了？"。此问题采用 DataGemma RIG 方法，运用 Data Commons (DC) 来获得权威的数据。

2. RAG (检索增强生成，Retrieval-Augmented Generation) 让语言模型能整合超出其训练数据范围之外的相关信息，并汲取更多上下文信息，从而生成更全面、信息量丰富的输出。对于 DataGemma，此功能则是通过利用 Gemini 1.5 Pro 的长上下文窗口实现的。DataGemma 会在模型开始生成响应之前，从 Data Commons 检索相关上下文信息，从而将出现幻觉的风险降到最低，同时提升响应的准确率。

△ 查询示例: "全球可再生能源的使用量是否增加了？"。此问题采用的 DataGemma RAG 方法展现出更强的推理能力并包含了脚注。

极具前景的成果和未来方向

我们对使用 RIG 和 RAG 的研究成果仍属早期阶段，但也足以令人振奋。我们发现，语言模型在处理有关数字的事实时，准确率得到显著提升。这表明用户在为开展研究、制定决策或仅仅是为了满足好奇心而使用模型时，面临的幻觉挑战将会减小。您可以在我们的研究论文中探索这些结果。

△ RAG 查询和响应的示例。支持的真实统计数据引用自 Data Commons 提供的表格。*为了简洁起见，此处仅显示部分响应。

研究论文
http://datacommons.org/link/DataGemmaPaper

我们的研究仍在持续推进。最初研究时采用了分阶段的限定访问方式，后续我们将致力于进一步完善本文所述的两种方法，将这项工作扩展开来，进行严格的测试，最终将这些经过增强的功能整合到 Gemma 和 Gemini 模型中。

我们希望通过分享研究结果和让这一最新 Gemma 模型变体再次成为 "开放" 模型，促使更多人采用这些由 Data Commons 主导的技术，让 LLM 以事实数据为基础。只有让 LLM 更加可靠、可信，才能确保它成为每个人不可或缺的工具，同时让 AI 在未来能为人们提供准确的信息，帮助人们作出明智的决策，并加深人们对周围世界的理解。

研究人员和开发者还可以使用这些适用于 RIG 和 RAG 方法的快速入门手册，即刻体验 DataGemma。如需详细了解 Data Commons 和 Gemma 如何协同工作，请参阅我们的研究博文。

RIG
https://colab.research.google.com/github/datacommonsorg/llm-tools/blob/master/notebooks/datagemma_rig.ipynb
RAG
https://colab.research.google.com/github/datacommonsorg/llm-tools/blob/master/notebooks/datagemma_rag.ipynb
研究博文
https://research.google/blog/grounding-ai-in-reality-with-a-little-help-from-data-commons