SELF-QA：无监督知识引导语言模型对齐-CSDN博客

本文链接：https://blog.csdn.net/2202_75336422/article/details/140866160

论文：SELF-QA: Unsupervised Knowledge Guided Language Model Alignment

Arxiv：https://arxiv.org/abs/2305.11952

论文背景

尽管 ChatGPT 具有令人印象深刻的功能，但构建用于指令调整的监督微调 (SFT) 数据仍面临重大挑战。注释数据所需的人力以及与数据质量、多样性、准确性等相关的问题阻碍了这项技术的发展。虽然已经提出了 Self-Instruct 来缓解这个问题，但它仍然依赖于一小组人工编写的种子指令来提供指导。此外，该方法在控制生成的指令数据的域覆盖范围和确保生成的答案的正确性方面的能力有限。因此，在利用丰富的无监督数据（尤其是特定领域的专业知识）方面有着巨大的未开发潜力。
因此，在本文中我们介绍了 SELFQA，这是一个从无监督知识生成 SFT 数据的框架，灵感来自人类的自我提问学习方法。 SELF-QA 用大量无监督知识替代了其他自对齐模型中手工编写的种子，减轻了语言模型根据特定需求生成教学数据的难度。如下图所示，在知识引导的指令生成和机器阅读理解阶段，无监督数据被依次使用。SELF-QA 不仅减少了对人工标注者的依赖，而且可以生成多样化、正确且领域特定的教学数据。使用来自各个领域的无监督语料进行的实验证明了我们提出的方法的有效性。

方法论

我们提出的 SELF-QA 由三个不同的阶段组成：知识引导指令生成、机器阅读理解、过滤和修剪。

1）知识引导指令生成

核心思想：在这一阶段，我们使用语言模型本身根据无监督的文本生成指令。这些生成的指令是特定于领域的，并且与提供的无监督文本内容相关。

注意事项：在训练和推理过程中，指令被输入给语言模型时，模型并没有关于原始文本的任何背景知识。因此，需要制定一些指导原则，确保生成的指令不依赖于也不引用原始文本中的内容。

数据处理：1）无结构化数据：如网页和书籍数据，经过清洗处理后可以直接使用。2）结构化数据：如表格和知识图谱，需要先转换为无结构化的文本数据才能被利用。这可以通过使用模板填充槽位或将每个数据项与其对应的属性名连接起来来实现，如下图所示。

Examples of transformation of unsupervised structured data

举例说明：

指令生成提示：背景知识是：随着全球气候变化的加剧，环保节能成为了社会关注的热点。各国政府和企业纷纷采取措施，推广绿色能源和节能减排技术。...（此处省略具体文本内容）请根据上述文章内容生成十个尽可能多样化的指令问题。这些问题可以是关于事实的问题，或者是对相关内容的理解和评价。请假设在提问时没有对应的文章可供参考，因此不要在问题中使用如'这个'或'这些'等指示代词。请按照以下格式生成问题： 1. 问题：目前全球面临的主要环境问题是什么？ 2. 问题：请列举三种节能减排的技术。 ...（继续列出其他问题）

2）机器阅读理解

在给定无监督知识和生成的指令问题后，语言模型需要生成对应答案的阶段。这个过程类似于阅读理解任务，因此也被称为阅读理解阶段。

核心思想：在这一阶段，语言模型需要根据对应的无监督知识和之前生成的指令问题来生成答案。这个过程可以看作是一个序列生成任务，其中模型根据当前已生成的内容（包括之前的答案部分、无监督知识和问题本身）来预测下一个要生成的答案部分。

举例说明：

假设我们有无监督知识是关于“人工智能的发展历史”，并且之前生成了一个指令问题：“请简述人工智能发展的三个重要里程碑。” 在这个阅读理解阶段，我们给语言模型的提示可能如下：
阅读理解提示：  
背景知识是：{这里插入关于人工智能发展历史的无监督知识数据}  
请基于上述文章内容回答以下问题：请简述人工智能发展的三个重要里程碑。  
请尽可能详细地回答这个问题，但不要在答案中改变原文的关键信息，也不要在答案中包含“基于上述文章”等表述。  
请按照以下格式生成对应的答案：  
问题：请简述人工智能发展的三个重要里程碑。  
答案：...
语言模型接收到这个提示后，会根据无监督知识中关于人工智能发展历史的描述，以及问题“请简述人工智能发展的三个重要里程碑”来生成一个答案。这个答案可能会是类似这样的：
答案：人工智能的发展历史中有三个重要里程碑。首先，是图灵机的提出，为计算机科学和人工智能的发展奠定了理论基础。其次，是达特茅斯会议的召开，标志着人工智能作为一个独立学科的诞生。最后，是深度学习的兴起，推动了人工智能技术在多个领域的突破和应用。
这个答案就是语言模型根据无监督知识和指令问题生成的，它符合阅读理解任务的要求，即基于给定的文本内容来回答问题。

3）过滤和修剪

过滤和修剪虽然我们明确指示模型没有来自外部文档的先验知识，并且禁止在生成答案中使用诸如“this”之类的指示代词以及诸如“基于上述内容”之类的短语，但我们仍然观察到语言模型仍然产生违反这些规则的文本。此外，生成的指令实例还展示了它们不遵守所需格式并变得不可解析的情况。因此，有必要进一步过滤掉这些有问题的示例。

为了缓解这些问题，我们实现了一个后处理步骤来过滤不适当的响应并纠正任何格式错误。这涉及开发启发式方法和基于规则的方法来识别和删除违反指示约束的实例。通过应用这些过滤器，我们确保生成的文本遵守预定义的指南并保持所需的正确性和连贯性水平。

结论

在本文中，我们介绍了 SELF-QA，这是一个从无监督知识生成指令调整数据的框架。无监督数据在知识引导指令生成和机器阅读理解阶段按顺序使用。我们的实验证明了 SELF-QA 在生成多样化、正确和特定领域的指令数据方面的有效性。通过减少对人工注释者的依赖，SELFQA 提供了一种有前途的方法来提高指令调整的效率和可扩展性。

SELF-QA：无监督知识引导语言模型对齐

论文背景

相关工作

1）指令调优的语言模型

2）自举式指令生成

3）问题生成与回答

方法论

1）知识引导指令生成

2）机器阅读理解

3）过滤和修剪

结论