大语言模型:Query Rewriting for Retrieval-Augmented Large Language Models

总体思路

  • 作者首先指出大语言模型虽然取得了很好的效果,但是仍然存在幻觉和时间顺序混乱的问题,因此需要额外知识库和LLM内部知识库相结合,来修正;
  • 因此优化传统的retriever-reader的方案成为需要;
  • 目前的研究方案当中使用prompt优化的方法是黑盒的不可修改;
  • 因此作者提出了采用大模型重写query的rewrite的方法来优化;
  • 同时作者也提出这种重写的方法可以不是局限于大语言模型的,直接使用可训练的语言模型也能完成相关任务;
  • 在实验当中这种方法对下游任务reader的效果取得了良好的效果。(也就是没有直接评测,而是评测了下游任务)
    直接看这个图大致就可以获得作者提出的方案和原始方案的区别了。

在这里插入图片描述

训练细节

  • 作者基础版本的使用LLM的rewriter当中也是使用meta-prompt进行query改写;
  • 作者在训练版本使用了T5作为被训练模型,在开始真正训练之前,因为T5模型本身不能完成这个query获取的任务,因此先使用pseudo数据进行训练,使得其具有这个能力,这些数据就是上一步LLM实现query改写获得的数据;
  • 在训练的过程中主要有几个组成:状态(序列×字母可能性)、动作、概率(实际上的改写策略,默认是上一步预热得到的模型)、reward(使用结果得出的结论)、γ(最终得到的reader输出结果,有无限多种)的强化学习方法
  • 5
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
重新编写深度生成模型是指对已有的深度生成模型进行重新设计和改进,以提高其性能和效率。深度生成模型是一种基于人工神经网络的模型,用于从输入数据中生成符合特定分布的新数据。这种模型在图像生成、语音生成和自然语言处理等领域有着广泛的应用。重新编写深度生成模型可能涉及到以下几个方面的工作: 首先,对原有模型的架构进行调整和优化。可能需要更换不同类型的神经网络层、调整网络的深度和宽度,以及引入新的激活函数和正则化方法,以改善模型对复杂数据分布的建模能力。 其次,对损失函数和优化算法进行修改。这包括选择更适合特定任务的损失函数,以及调整学习率、批次大小和训练迭代次数等超参数,以加速训练过程并提高模型收敛性能。 另外,考虑引入新的技术和概念。例如,可以借鉴最新的深度学习技术,如自监督学习、迁移学习和元学习,以提高模型的泛化能力和适应性。 最后,需要对重新编写的模型进行充分的测试和评估。这包括在各种真实数据集上进行性能测试,进行与其他模型的比较,以及对模型的可解释性和鲁棒性进行分析。 总的来说,重新编写深度生成模型是一个既需要理论深度又需要实践经验的工作,需要对模型架构、损失函数、优化算法等方面进行全面的考量和改进,以获得更加高效和强大的生成模型

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CUHK-SZ-relu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值