驱动当下 AI 创新的大语言模型 (LLM) 正日趋复杂。这些模型可以梳理大量文本并生成摘要,提出新的创意方向,甚至提供代码草稿。然而,尽管 LLM 拥有这些惊人的能力,有时也会信誓旦旦地提供不准确的信息。我们称这种现象为 “幻觉”,这是生成式 AI 的关键挑战。
我们将在本文中与您分享一些极具前景的研究进展,通过让 LLM 利用现实世界的统计信息去帮助减少幻觉,从而直接应对幻觉挑战。除了这些研究进展以外,我们也很高兴能发布 DataGemma,这是首个旨在将 LLM 与来自 Google Data Commons 的大量现实世界数据连接起来的开放模型。
Data Commons: 可信任的公开数据大型存储库
Data Commons 是一个公开可用的知识图谱,包含超过 2,400 亿个丰富的数据点,涵盖数十万个统计变量。该知识图谱从联合国 (UN)、世界卫生组织 (WHO)、疾病控制与预防中心 (CDC) 和人口普查局等可信组织获取公开信息。将这些数据集整合成一套统一的工具和 AI 模型,可以帮助政策制定者、研究人员和组织获得准确的见解。
-
Data Commons
https://datacommons.org/
我们可以把 Data Commons 当成一个庞大且持续扩展的数据库,包含从健康和经济到人口统计和环境等各种主题的可靠公开信息。您可以通过我们由 AI 驱动的自然语言界面,用自己的话术与这一数据库交互。例如,您可以查询非洲哪些国家的电力供应增长最多、美国各县居民收入与患糖尿病的关联性,或查询您想了解的相关数据问题。
-
由 AI 驱动的自然语言界面
https://blog.google/technology/ai/google-data-commons-ai/?utm_campaign=tech-content&src=Online/LinkedIn/linkedin_page&utm_medium=linkedin_post&utm_source=linkedin
-
非洲哪些国家的电力供应增长最多
https://datacommons.org/explore#q=Which%20countries%20in%20Africa%20have%20had%20the%20greatest%20increase%20in%20electricity%20access%3F
-
美国各县居民收入与患糖尿病的关联性
https://datacommons.org/explore#q=How%20does%20income%20correlate%20with%20diabetes%20in%20US%20counties%3F
Data Commons 如何帮助应对幻觉
随着生成式 AI 的应用日益广泛,我们的目标是通过将 Data Commons 整合进 Gemma,为上述体验奠定基础。Gemma 是 Google 最先进的轻量级、开放模型系列,采用与打造 Gemini 模型相同的研究和技术构建而成。这些 DataGemma 模型现在可供研究人员和开发者使用。
-
Gemma
https://ai.google.dev/gemma
-
Gemini
https://gemini.google.com/corp/app?hl=en
-
现在可供研究人员和开发者使用
https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643
DataGemma 将通过利用 Data Commons 的知识,使用两种不同的方法来增强 LLM 的事实性和推理能力,从而扩展 Gemma 模型的功能:
1. RIG (检索交错生成,Retrieval-Interleaved Generation) 可主动查询可信任来源并根据 Data Commons 中的信息进行事实核查,从而增强语言模型 Gemma 2 的功能。通过编程,当用户输入提示词并让 DataGemma 生成响应时,该模型可识别统计数据的实例并从 Data Commons 检索回答。虽然 RIG 不是最近才出现的方法,但在 DataGemma 框架中应用该方法是一种独特的实践。
△ 查询示例: “全球可再生能源的使用量是否增加了?”。此问题采用 DataGemma RIG 方法,运用 Data Commons (DC) 来获得权威的数据。
2. RAG (检索增强生成,Retrieval-Augmented Generation) 让语言模型能整合超出其训练数据范围之外的相关信息,并汲取更多上下文信息,从而生成更全面、信息量丰富的输出。对于 DataGemma,此功能则是通过利用 Gemini 1.5 Pro 的长上下文窗口实现的。DataGemma 会在模型开始生成响应之前,从 Data Commons 检索相关上下文信息,从而将出现幻觉的风险降到最低,同时提升响应的准确率。
△ 查询示例: “全球可再生能源的使用量是否增加了?”。此问题采用的 DataGemma RAG 方法展现出更强的推理能力并包含了脚注。
极具前景的成果和未来方向
我们对使用 RIG 和 RAG 的研究成果仍属早期阶段,但也足以令人振奋。我们发现,语言模型在处理有关数字的事实时,准确率得到显著提升。这表明用户在为开展研究、制定决策或仅仅是为了满足好奇心而使用模型时,面临的幻觉挑战将会减小。您可以在我们的研究论文中探索这些结果。
△ RAG 查询和响应的示例。支持的真实统计数据引用自 Data Commons 提供的表格。*为了简洁起见,此处仅显示部分响应。
-
研究论文
http://datacommons.org/link/DataGemmaPaper
我们的研究仍在持续推进。最初研究时采用了分阶段的限定访问方式,后续我们将致力于进一步完善本文所述的两种方法,将这项工作扩展开来,进行严格的测试,最终将这些经过增强的功能整合到 Gemma 和 Gemini 模型中。
我们希望通过分享研究结果和让这一最新 Gemma 模型变体再次成为 “开放” 模型,促使更多人采用这些由 Data Commons 主导的技术,让 LLM 以事实数据为基础。只有让 LLM 更加可靠、可信,才能确保它成为每个人不可或缺的工具,同时让 AI 在未来能为人们提供准确的信息,帮助人们作出明智的决策,并加深人们对周围世界的理解。
研究人员和开发者还可以使用这些适用于 RIG 和 RAG 方法的快速入门手册,即刻体验 DataGemma。如需详细了解 Data Commons 和 Gemma 如何协同工作,请参阅我们的研究博文。
-
RIG
https://colab.research.google.com/github/datacommonsorg/llm-tools/blob/master/notebooks/datagemma_rig.ipynb
-
RAG
https://colab.research.google.com/github/datacommonsorg/llm-tools/blob/master/notebooks/datagemma_rag.ipynb
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。