Re74 读论文:DataGemma Knowing When to Ask - Bridging Large Language Models and Data

诸神缄默不语-个人CSDN博文目录
诸神缄默不语的论文阅读笔记和分类

论文全名:Knowing When to Ask - Bridging Large Language Models and Data
论文下载地址:https://docs.datacommons.org/papers/DataGemma-FullPaper.pdf

模型名称:DataGemma
对于本模型的简介和调用方法,请参考我的另一篇博文:DataGemma:谷歌大模型
本篇博文是在其基础上阅读该模型技术报告的笔记,不会再赘述该文中讲过的一些思路和概念方面的内容。

1. 思路

LLM容易在实时信息上出现幻觉,而且无法提供数据的注释来源信息。
DataGemma的训练主要是要学习什么时候去获取外部信息(关注数据和统计信息方面)。感觉这种思路对写报告很有利。

传统解决方案还有一个tool use,训练模型判断什么时候调用函数(如检索数据库)。RIG就是Toolformer的应用。

2. 数据集

问答样本对示例见附录D。用于检索的知识库是Data Commons。

文中提及了一些Data Commons知识库的多样性不足。那反正没办法,略。

3. RIG / RAG

在这里插入图片描述
大致来说RIG就是先生成回答,再从中挑出数据(LLM-generated statistical value (LLM-SV))进行检索(得到Data Commons statistical value (DC-SV));RAG就是先检索,再结合检索结果生成回答。这两种方式都能为最终结果提供可靠的数据来源。

1. RIG

RIG的训练数据来自一组种子query,通过基LLM得到回答,然后通过提示学习(3-shot)得到用于检索数据库的自然语言,然后人工审查这批数据。最终数据见附件A。

将自然语言转换为检索命令:将检索需求分类
第一步:切分为变量/主题、地点、属性,将变量和地点映射到知识库中的对象。
切分方法:变量/主题:基于嵌入的语义搜索索引。地点:基于字符串的命名实体识别。属性:基于正则表达式的启发式方法。
第二步:将query进行分类,将切分出的对象填入模版
在这里插入图片描述
第三步:这样得到的结构化数据就已经可以用来在Data Commons中进行查询了

2. RAG

先让模型生成检索自然语句(这部分指令微调了一个小模型,做训练集时用的prompt见附件B),然后用跟RIG部分一样的方式将自然语言转换为检索命令。
检索返回表格,将表格加入query生成最终结果(这部分训练了一个大模型,因为上下文很长。prompt见附件C)。

4. 微调

Less Is More for Alignment (LIMA):指令学习+强化学习

这个文章中没具体提。总之有这么一回事。

5. 实验

实验设置、评估指标之类的基础部分我就懒得写了,大家感兴趣可以去看论文。

训练集只有600条,测试只有101条query。

1. RIG分析

RIG事实准确性(直观判断):
在这里插入图片描述

RIG失败原因分析:
在这里插入图片描述

RIG失败原因中“数据库没能返回所需数据”的原因分析:
在这里插入图片描述

人工判断更喜欢哪种输出结果:
在这里插入图片描述

2. RAG分析

RAG分别评估了两个阶段的准确性:
第一阶段评估小模型生成的用于检索的问题及数据库返回结果的质量,包括是否充分覆盖query、与query的相关性。
第二阶段首先评估模型回答整体是否正确,然后定量评估其中各条推理结论的正确率。

推理结论正确率:
在这里插入图片描述

推理结果不正确的原因分析:
在这里插入图片描述

对比实验:
在这里插入图片描述

人工判断更喜欢哪种输出结果:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

诸神缄默不语

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值