Re74 读论文：DataGemma Knowing When to Ask - Bridging Large Language Models and Data

诸神缄默不语

已于 2024-09-26 13:53:06 修改

阅读量465

点赞数 14

分类专栏：人工智能学习笔记文章标签：语言模型人工智能自然语言处理 DataGemma 大模型 LLM 大规模预训练语言模型

于 2024-09-26 11:20:12 首次发布

本文链接：https://blog.csdn.net/PolarisRisingWar/article/details/142497684

版权

人工智能学习笔记专栏收录该内容

245 篇文章 272 订阅

订阅专栏

诸神缄默不语-个人CSDN博文目录
 诸神缄默不语的论文阅读笔记和分类

论文全名：Knowing When to Ask - Bridging Large Language Models and Data
论文下载地址：https://docs.datacommons.org/papers/DataGemma-FullPaper.pdf

模型名称：DataGemma
对于本模型的简介和调用方法，请参考我的另一篇博文：DataGemma：谷歌大模型
本篇博文是在其基础上阅读该模型技术报告的笔记，不会再赘述该文中讲过的一些思路和概念方面的内容。

1. 思路

LLM容易在实时信息上出现幻觉，而且无法提供数据的注释来源信息。
DataGemma的训练主要是要学习什么时候去获取外部信息（关注数据和统计信息方面）。感觉这种思路对写报告很有利。

传统解决方案还有一个tool use，训练模型判断什么时候调用函数（如检索数据库）。RIG就是Toolformer的应用。

2. 数据集

问答样本对示例见附录D。用于检索的知识库是Data Commons。

文中提及了一些Data Commons知识库的多样性不足。那反正没办法，略。

3. RIG / RAG

在这里插入图片描述
大致来说RIG就是先生成回答，再从中挑出数据（LLM-generated statistical value (LLM-SV)）进行检索（得到Data Commons statistical value (DC-SV)）；RAG就是先检索，再结合检索结果生成回答。这两种方式都能为最终结果提供可靠的数据来源。

1. RIG

RIG的训练数据来自一组种子query，通过基LLM得到回答，然后通过提示学习（3-shot）得到用于检索数据库的自然语言，然后人工审查这批数据。最终数据见附件A。

将自然语言转换为检索命令：将检索需求分类
第一步：切分为变量/主题、地点、属性，将变量和地点映射到知识库中的对象。
切分方法：变量/主题：基于嵌入的语义搜索索引。地点：基于字符串的命名实体识别。属性：基于正则表达式的启发式方法。
第二步：将query进行分类，将切分出的对象填入模版
在这里插入图片描述
第三步：这样得到的结构化数据就已经可以用来在Data Commons中进行查询了