干货 | GLM-Dialog:优化大模型的“幻觉性”问题

点击蓝字

887baa9787018e5217debeae21603484.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

随着计算能力的增强和数据量的爆炸式增长,大模型已经成为一个不可忽视的力量。尽管ChatGPT展现出了强大的能力,但仍然有一种致命的缺陷,一本正经地说胡话,即“幻觉性”。ChatGLM干货技术分享系列活动“GLM-Dialog: 基于抗噪预训练的知识对话生成”邀请了中国人民大学信息学院硕士生张晓康,他在报告中介绍了对于大语言模型幻觉性问题的一些个性见解与解决方案。

为了减少事实错误的发生,检索增强型语言模型得到了广泛关注。微软和谷歌等领先科技公司已经推出了各自的解决方案:微软的NewBing和谷歌的Bard。此外,YouChat和Perplexity.ai等其他产品在这一领域也引起了持续关注。但是在用户实际使用之后发现幻觉性的问题并没有在很大程度上被缓解。尽管检索增强在学术界被广泛研究,业界也在积极地往产品中融合,但该问题仍未被妥善解决。

b5259beb63222f495130cc00f3edd7aa.png

图1 检索增强大模型


所提方法

针对此问题介绍了一种新方法-GLM-Dialog,用于知识驱动对话生成的容忍噪声预训练方法。GLM-Dialogue的框架分为三个部分。第一部分是准备阶段,第二部分是两阶段的模型训练过程,第三部分是模型部署阶段。


准备阶段

语料库准备。选择一个比较充分的中文对话语料,并按照与用户聊天的实际场景的差异程度进行排序。训练语料库由来自不同来源的三部分组成,具有特殊目的,主要包括在线讨论平台中的社交媒体数据、由来自不同任务的开源基准数据集的对话形式转化而来的基准数据以及从自己部署的在线聊天机器人平台中收集的在线服务数据。

骨干准备。采用GLM 10B,它从特殊标记完成输入句子,作为主干来设计查询生成和对话生成模型。GLM的主要优点有两个方面。首先,GLM分别实现了上下文和生成内容的双向注意机制和单向注意机制。灵活的注意机制允许双向注意对输入句子进行分类,自回归生成单向注意的句子。其次,GLM为各种模型尺度提供了一致的模型架构和开源检查点,允许在不同的计算设备上部署GLM-Dialog。

查询生成模块准备。查询生成模块将对话历史作为输入并生成适当的搜索查询,该查询被传递到在线搜索引擎以检索与对话相关的知识片段。为了准备查询生成模块,需要最大化与对话历史相关联的正确查询标注的概率。通过以这种方式训练模块,旨在增强其生成准确和适当的查询的能力,有效捕捉对话历史的要点。

131badf260f8c828251090f66b0d8f8d.png

图2 查询生成模块


模型训练

训练阶段1:持续对话预训练。尽管现成的LLM在生成流畅的对话回应方面表现出能力,但它们离构建对话模型还有一段距离,在口语化的对话和来自一般领域的Web爬取文本之间的语言风格之间存在差异。社交媒体数据作为一种特殊类型的网络爬取文本,既构成了GLM预训练数据的一部分,使得GLM易于适应新引入的训练数据;它的语言风格与自然对话也有许多相似特征,最终的训练语料库包括了特意收集的社交媒体数据。

9fcc2fd4c5d6215712a04ded527b156f.png

图3 持续对话预训练

训练阶段2:知识注入微调。为了构建基于知识的对话模型,采用上下文相关的背景知识片段来补充输入,以帮助模型生成更多信息响应。然而,直接利用补充的片段并构建基于知识的对话模型具有挑战性。首先,不容易确定是否需要知识,因为闲聊通常与寻求信息的对话混合。其次,从开放域环境中定位有用的背景知识是非常困难的。所以,在训练的第二阶段主要完成以下事情:第一,构建具有外部知识和负面知识样本的对话训练实例;第二,设计具有辅助对抗性损失的训练目标,以鼓励模型共同生成响应并决定是否使用外部知识;第三,在迭代训练方案中引导训练实例,确保渐进、精细的学习过程。


部署对话系统

GLM-Dialog由三个组件组成——查询生成模块、外部搜索引擎和响应生成模块。GLM-Dialog首先使用查询生成模块生成网络搜索查询,然后从网络搜索引擎构建外部知识池,只保留顶部搜索结果,最终的响应根据对话历史和补充知识生成。


隐式评估

张晓康介绍道,研究中还有另外一个发现:传统的对话评价指标对于本文的方法并不适用。概括起来,主要有两个原因:首先评测标准本身比较死板,它在很多情况下会假设标准回复是唯一的,然而这并不符合实际情况;其次,由于他在研究中使用的是真实世界中带有噪声的数据源,而针对中文知识对话的数据集非常稀缺,为此,又额外设计了一套专门的评价系统。

每当有人发送消息时,该平台将提供所有已部署的机器人的响应,其中一个响应的决定是由人类做出的,这被视为隐式评估。如果机器人的响应更频繁地从其他机器人中选择,则认为机器人具有卓越的性能。通过为每一轮的所有机器人保持相同的对话历史,以便公平地比较它们的响应。这是通过记录注释者的消息和所选的回应来实现的,然后将它们添加到进行中的对话历史中。值得注意的是,机器人的名称没有公开,消息的顺序将在平台显示之前打乱,以防止潜在的用户偏见。

e744244897c5c4b8cef4a9fdbc76977a.png

图4 隐式人类评估


实验结果

图5中的表1显示了DuSincR的自动评估结果,这表明GLM-Dialog在大多数自动指标上都优于基线。右图显示了隐式人工评估方法获得的结果。总共有10,000个选择由20个聘请的注释者产生。根据结果对模型进行排名,可以发现GLM-Dialogue模型获得了最高的分数,这表明它可以比比较模型产生更吸引人的响应,这种评估方法能够有效地减少注释偏差。

5fb34c0cfdd108246f369ed0b0a78dc7.png

图5 实验结果

然而,“用户更喜欢一个模型”与“模型的回复更具有知识性”并不完全一样,他们具有一定的相关性。上图5中,表3分别显示了以相同50个闲聊和100个基于知识的开放话语为中心的人机对话的人工评估结果。对于本次评估,对话和评级都必须由人类提供,由表中结果看出GLM-Dialogue的幻觉性得到显著下降。


消融实验

张晓康也对消融实验进行了一定的分析。他通过对响应生成进行消融研究,以确认注入外部知识和知识分类的影响。图6中,表4显示了不同组件对知识注入的影响,这表明在没有对基于知识的对话进行第二次训练的情况下,模型无法将注入的背景知识与对话历史相结合,导致所有指标显著下降;与在线收集的对话相比,基于知识的基准的数量非常有限。因此,在不向在线大规模服务数据注入知识的情况下,知识整合能力主要依赖于基于知识的基准,从而影响最终性能;即使将知识引入在线服务数据中,也有很多与响应无关的噪声知识,这可能会对响应产生不利影响。

b7ef8acdc0b15d88543de9f240486a02.png

图6 消融实验

与不同知识整合方式的比较产生了上表中的结果,这表明尽管将相同的知识注入GLM10B作为提示,但性能不如所提出的GLM-Dialog,这证明了微调的优势;与所提出的GLM-Dialog相比,预分类器降低了性能。预分类器在注入之前丢弃一些寻求知识。相反,GLM-Dialog向任何对话注入知识。它在响应生成时刻对知识进行分类的能力使这种完全注入成为可能,当聊天对话和基于知识的对话经常被混合时,这更适合现实世界的情况。

同时,文中也对查询生成进行消融研究。结果表明,在没有生成的查询的情况下,性能显著下降。省略号、共指和长话语不能作为搜索引擎的良好查询。

查询生成

此外,他还介绍了使用相同的查询相似度计算方法确定检索到的知识片段,与DuSinc测试用例中提供的人工注释知识片段之间的相似性。图中右侧显示了这些知识相似度得分在93个测试用例上的频率直方图,0.86的平均分数表明检索到的知识质量很高。从图中可以看出,查询质量与知识质量呈正相关。

38e7f58f939ac6f18db7fe35a3a0bbf4.png

图7 查询生成


总结

在这篇报告中,张晓康分享了一个10B参数LLM来生成基于知识的对话生成,该模型通过提供一系列增强和训练技术来利用有用和嘈杂的知识来解决有限数据集的挑战。他还介绍了一种新的人工评估工具,允许人类在与它们交互时隐式评估机器人,并希望所提出的技术可以激发感兴趣的研究人员,以提示基于知识的对话LLM的开发。

往期精彩文章推荐

1a42ae98948b20fbbca9f676769302a6.jpeg

关注我们 记得星标

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1400多位海内外讲者,举办了逾600场活动,超600万人次观看。

7bc6a9eeb69d653f80fb41bea1701c06.png

我知道你

在看

~

8aba711602b2d894169f2476e75c807e.gif

点击 阅读原文 查看回放!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值