Propagating Knowledge Updates to LMs Through Distillation 小记

最新推荐文章于 2024-08-04 10:54:01 发布

m0_46092647

最新推荐文章于 2024-08-04 10:54:01 发布

阅读量666

点赞数 13

文章标签：深度学习人工智能机器学习

本文链接：https://blog.csdn.net/m0_46092647/article/details/140613743

版权

作者：ygz
时间：20240722
地点：hby
论文来源：NeurIPS2024【不是我写的，我写的是读后感】
AI工具：文心

*现存的训练方法大多无法更新模型的知识【模型由于训练数据的原因，不可能知道一个新创的词，这是训练方法的本性决定的】。之前的更新模型知识的方法成功注入原子知识【这个我也不知道什么意思，估计就是一些实体信息，比如A是什么，将其描述】，但是注入的知识不能在模型中体现它的推理能力。本文使用一种上下文蒸馏的方法，证明了其能传授实体知识并且能将其用于推理。该方法组成为两阶段。迁移集生成与在迁移集上蒸馏。迁移集生成：通过提示LLM去生成一个实体定义的续写。然后更新学生模型的参数，期望学生模型对于这些定义上的分布相似。
*、

评：没啥创新点，在技术上，只是找了一个很好很重要任务来做。即模型的知识更新。

简介：

在这里插入图片描述
这里sunak作为一英国的首相的信息，模型能够知道。但是在使用到这个角色的时候，模型似乎发生了失灵，无法根据sunak的信息推断它会做什么。【这里是有点问题的，因为如果单纯的问一个名称，谁知道你sss啊】。文中接下来也说，和一般的RAG与COT的方法没法比。本文就想弥补这样一个gap，即我能实体注入然后并且能够将其做推理，在参数上的更新，不用提供外挂的知识库，直接让模型懂得这个知识。
ample
在这里插入图片描述
生成数据集，使用kl散度作为损失，然后套用蒸馏的办法，将模型达到所述效果。

本次实验在Entity Inferences 与 Entity Cloze by Date 的数据集上做了实验。在三个语言模型上，他的性能比微调还有和编辑的方法好。做了消融实验关注这个迁移集设置的选择。这个迁移集的而设计使用自己的这个模型来做的话能够比肩gpt3.5.这个方法能够在不同的模型大小上有效，我们能够注入大量的信息一次。能够注入100个实体对象只有一点小的性能降低【这是一个非常抽象的现象，什么样的benchmark才算好呀】

背景与实验设置

在这里插入图片描述
希望将教师在de下生成x的的分布与学生生成x的分布一致。

方法

在这里插入图片描述
生成提示集，这是一个创新点。其他的就是学生这里是不给de的，但是会给d，但是教师这里是给de的。每个样本呢训练k次，对生成的长度加一个缩放。

评估数据集

EI与ECBD

指标：acc与PPL

实验设置

在这里插入图片描述
两种方式生成这个转移集。一个是使用gpt3.5 达芬奇版本，一个是使用自身的模型的版本。

比较的模式

知识注入有两种方式：1，外挂知识库。2，参数更新。
在这里插入图片描述
微调是一个经常使用的工具去让LM学习适应新领域与新知识，并且是知识注入的baseline。训练Mbase 在de上，负log似然损失。
1，微调在LM上使用实体定义。
2，计算转移集，使用转移集作为微调，计算损失与前述算法计算的损失一样。
3，mend，使用知识编辑的一个网络。
4，MEMIT，
在这里插入图片描述

结果：

在这里插入图片描述

这里选的想对比的很有意思，选的baseline 都好低啊。
蒸馏的效果比baseline的效果好。在3.5上生成的转移集比自身生成的更好。这有时甚至比这个给其外挂知识库的效果好。对于GPTxl 蒸馏仅仅出色于定义的句子在3.5生成迁移集上，但是仍然活得很多的提升。

学习的是领域知识而不是特定知识。

消融实验：使用错误的实体定义【随机选择】会使得模型的困惑度提升。所以，这是一个潜在的优势相对于prepend。
下图一定程度上反应了知识是从迁移集上产生的还是定义上产生的。当定义是一个错误的【random】，它的迁移集是正确的，它的困惑度会上升。
在这里插入图片描述
评价是否学习到了这个实体的知识，可以发现。见右图，微调与蒸馏句子定义的困惑度都比较低，一定程度说明了学习到了这个知识。左图，则表明在续写句子上的能力，微调是不那么好的，这也说明了前文作者说的推理能力较弱。

在这里插入图片描述
~~看这个是否对目标的实体是能够识别成功。~~

~~使用更多的续写的蒸馏能够实现更高的性能。~~

在这里插入图片描述
刷新模型的知识，将模型原有的知识修正，或者改变。

考察了注入错误的知识效果是什么样的。表明当注入错误的知识之后，这个方法虽然在准确率和泛化性能上不如其他。但是对目标实体之外的其他的实体影响相对性较小。
在这里插入图片描述

结论

在这里插入图片描述
这篇文章还有大量的问题待研究

m0_46092647

关注

13
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Propagating Knowledge Updates to LMs Through Distillation 小记

这里sunak作为一英国的首相的信息，模型能够知道。但是在使用到这个角色的时候，模型似乎发生了失灵，无法根据sunak的信息推断它会做什么。【这里是有点问题的，因为如果单纯的问一个名称，谁知道你sss啊】。文中接下来也说，和一般的RAG与COT的方法没法比。本文就想弥补这样一个gap，即我能实体注入然后并且能够将其做推理，在参数上的更新，不用提供外挂的知识库，直接让模型懂得这个知识。ample生成数据集，使用kl散度作为损失，然后套用蒸馏的办法，将模型达到所述效果。
复制链接

扫一扫