【机器阅读理解】System Report for CCL23-Eval Task 9: HUST1037 Explore Proper Prompt Strategy for LLM in MRC

Abstract

本文对中国高考阅读理解的对抗鲁棒性评价进行了研究。虽然语文阅读理解任务近年来得到了广泛的关注,但以往的方法对这一具有挑战性的数据集并不有效。我们专注于探索快速工程如何影响模型的阅读理解能力。通过使用ChatGLM、GPT3.5和GPT4进行实验,我们发现提示语和LLM阅读理解能力之间存在相关性,提示语工程提高了每种模型的阅读理解能力。我们团队提交了系统评估结果,在三项指标和总分中均排名第一。

Conclusion

本研究采用基于GPT4的大型语言模型对中国高考阅读理解任务的对抗鲁棒性进行评估。我们修改和测试了各种提示策略,使模型能够从原文进行逻辑推理。与原方法相比,该方法更有效地利用了大模型的语义信息和推理能力来解决阅读理解问题。然而,现行制度仍存在一些局限性。由于GPT4模型API的显示限制,我们无法尝试更多的提示策略。此外,该任务中的原始文本很长,模型输入长度受到限制,导致可伸缩的内容较短。我们的目的是压缩原始的文本信息,使我们能够在未来尝试更多的提示策略。

Appendix

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

总结

1、探索问题

(1)增强机器阅读理解能力的鲁棒性
(2)设计prompt和合适的参数,增强机器阅读理解能力(一次回答多个问题)

2、方法

增强鲁棒性
采用数据增强的方式,对数据进行了四种对抗攻击策略:关键字干扰、推理逻辑干扰、时空属性干扰、因果关系干扰

增强机器阅读理解能力
(1)采用gpt-3.5,参数设置上使生成内容较为趋近稳定。设置system时候,分别尝试了中文和英文。
(2)模仿人类解决问题方式,在回答多个问题时,使用上回答上一个问题时的额外信息。其实,就是类似于分解子问题求解。
(3)prompt设计应该准确、清晰和简洁。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

辰阳星宇

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值