论文:Make Your Decision Convincing! A Unified Two-Stage Framework: Self-Attribution and Decision-Making
作者:杜晏睿,赵森栋等
链接:https://arxiv.org/pdf/2310.13610.pdf
出处:哈工大SCIR
1. 背景
通过自然语言解释黑箱模型行为在各种自然语言处理(NLP)任务中取得了令人印象深刻的成果。其中一种形式是,如图1所示,利用输入文本的子序列作为证据,为用户提供支持模型决策的合理解释。
尽管现有框架在生成高质量的证据和实现高任务性能方面表现出色,但它们忽略了所提供的证据和决策之间的不可靠联系。简单地说,如图1所示,模型可能在提供错误的证据时做出正确的决策,或者在提供正确的证据时做出错误的决策。为了缓解这一问题,我们提出了一个统一的两阶段框架,称为Self-Attribution and Decision-Making (SADM)。
2. SAMD框架
2.1 总体架构
人类推理理论(Evans, 1984)认为人类推理有两个过程:启发式过程和分析过程。在启发式过程中,个体收集与任务相关的信息,而分析过程则涉及对收集到的信息进行操纵和加工以做出判断。从这种认知思维中获得灵感,我们提出了SADM框架,如图2所示。首先,我们使用Trationale模板来提示模型生成与任务相关的证据,这个过程称为Self-Attribution。随后,我们使用Tanswer模板来提示模型根据生成的证据做出其决策,该过程称为Decision-Making。关于提示模板的选择,我们利用面向人类理解的自然语言。以事实验证任务(FEVER)为例。对于Trationale模板,我们将其设计如下:“Extract the rationale from the passage to assess the claim”。对于Tanswer模板,我们将其设计为:“Refer to the following information to judge the claim”。我们使用了离散提示模板,并不会引入额外的参数或训练成本。
此外,为了处理冗长文本输入的问题,我们引入了基于seq2seq模型的FID架构。FID的结构描述如下:首先将长文本分成多个片段,分别表示为{seg1, seg2,…, segn}。接下来,将问题q与每个片段segi结合,在编码器模块中单独编码,生成多个向量表示{e1, e2,…,en}。最后,所有的向量表示都连接为e1⊕e2…⊕en,转发给解码器模块进行进一步处理。
2.2 训练和推理
a) 训练
训练阶段旨在实现两个目标:
Orationale:训练模型在Trationale模板的提示下生成与任务相关的证据。
Oanswer:训练模型在Tanswer提示下根据提供的证据做出决策。
如图3所示,对于目标Orationale,Trationale、问题q和文本p作为模型的输入,使用人工注释的证据r作为学习目标。对于目标Oanswer,Tanswer、问题q和人工注释的证据r作为输入,将决策y作为学习目标。训练过程中,我们采用联合训练策略,即将两个目标的损失相加。
此外,为了增强模型在两个阶段的能力,我们分别采用了Sentence Mark (SM)策略和Reasoning Augment Learning (RAL)策略。
SM策略:最近的研究强调了生成式模型的创造性。因此,我们有一个担忧,即生成模型可能会产生随机和不相关的自然语言作为证据。为了缓解这个问题,我们采用了SM策略,该策略在文本p中的每个句子之前添加索引号。如一段文本由n个句子组成(s1,…,sn)。添加索引后,段落的形式为(S1: s1,…,Sn: sn),其中大写字符为句子索引。若应用SM策略,在训练过程中优化目标Orationale时,需要将人工标注的句子索引作为学习目标,而不是自然语言形式的证据。
RAL策略:考虑到人类无论面对细粒度信息(如人类注释的证据)还是粗粒度信息(如整段文本),都有能力做出合理的决策。因此,我们同样希望赋予模型感知不同粒度信息的能力,从而增强其推理能力。为了实现这一点,我们利用了监督数据中可用的丰富信息。如图3所示,对于目标Oanswer,我们增加了两种训练样本格式。分别将Tanswer、问题q、文本p作为输入和将Tanswer、问题q、人工注释的证据r、文本p作为输入,同时以决策y作为学习目标,计算出的损失添加到联合训练的损失中。
b) 推理
在推理阶段采用pipeline的策略。首先使用Trationale模板提示模型,模型会根据问题q和文本p生成证据。如果使用SM策略,模型先生成句子索引,然后使用句子索引从文本p中定位到相应的证据。随后使用Tanswer模板提示模型根据生成的证据做出决策。此外,我们还考虑在决策阶段让模型同时基于生成的证据和文本做出决策。
3 实验分析
3.1 数据集
实验中使用的数据集统计结果如表1所示。FEVER 数据集旨在判断给定段落是否支持或反驳该说法。MultiRC 数据集旨在根据给定的段落为为与答案相关的问题分配True或False。BoolQ数据集旨在根据给定的段落使用True或False标签回答问题。Evi inf数据集将(干预、结果、比较者)三元组连接到问题中,目的是根据给定的段落判断干预是否显著增加、减少或对结果没有影响。Mov Rev数据集旨在分析给定段落的情感为正面或负面标签,其中问题被统一设置为“这篇评论的情感是什么?”。此外,Mov Rev数据集提供短语粒度的注释证据,而其他数据集提供句子级别的注释证据。为保持一致,我们将短语粒度的注释转换为句子粒度的注释。
3.2 评价指标
我们使用Accuracy评估任务性能,并使用Intersection-Over-Union F1分数(IOU F1),Token F1 (TF1)和证据精度(R-Acc)评估生成的证据的质量。此外,我们引入了一个新的度量,推理成功商(RSQ),以衡量生成的证据和决策之间可靠联系的程度。具体来说,我们将测试样本分为四类:
rcdc: 生成的证据和模型决策都正确的样本。
rwdw: 生成的证据和模型决策都错误的样本。
rcdw: 生成的证据是正确的,但模型决策是错误的。
rwdc: 生成的证据是错误的,但模型决策是正确的。
RSQ度量的计算方法如下。
基于RSQ度量,我们还提出了RSQ-W和RSQ-C度量来指导更详细的分析。RSQ-W衡量当模型提供正确的证据时,模型做出错误决策的比例。RSQ-W度量如下:
RSQ-C度量当模型提供错误的证据时,模型所做正确决策的比例。RSQ-C度量如下:
3.3 主实验结果
在主实验中,我们将场景分为全监督场景和半监督场景。在全监督场景中,我们为每条训练样本提供人工注释的证据。在半监督场景中,我们和先前工作一致,仅为25%的训练样本提供人工注释的证据。
全监督场景。 如表2所示,实验结果显示了SADM框架的良好潜力。对于任务性能(Perf.)和证据质量(IOU F1, TF1和R-Acc),我们的框架在五个数据集上显示了不同程度的改进。值得注意的是,我们的框架在RSQ度量中表现出了更显著的改进,这表明在生成的证据和决策之间存在更可靠的联系。
半监督场景。 考虑到证据注释的昂贵成本,半监督的场景更有可能应用于现实世界。我们只使用25%的带有注释证据的训练数据。如表3所示,在Mov Rev数据集上,我们的SADM框架在任务性能和证据质量方面的性能低于FID-Ex框架,但在RSQ指标方面仍优于前者。在其他四个数据集上,我们观察到任务性能平均提高3.7分,IOU F1提高1.3分,TF1提高0.9分,RSQ指标提高4.2分。整体上看,我们的框架显示出更显著的优势。
3.4 消融实验结果
在消融实验中,我们评估了没有SM策略和RAL策略的SADM框架的性能。如表4所示,实验结果表明,无论去掉SM策略还是去掉RAL策略,SADM框架的性能均有一定程度的下降,这说明SM策略和RAL策略都起到了正向的作用。值得注意的是,我们特别验证了RAL策略对模型推理能力的影响。我们提出了以证据为中心的精度(RCP)度量,它关注为模型在决策阶段提供人工注释的证据时,模型可以做出正确决策的比例。实验结果表明,当去除RAL策略时,五个数据集的RCP度量平均下降1.3个点。这种现象凸显了RAL策略在提高模型决策阶段推理能力方面的重要意义。
4 讨论
4.1 先前研究(Measuring Association Between Labels and Free-Text Rationales)表明相比于pipeline框架,parallel框架(让模型同时生成证据和决策)的综合性能更好,这与我们工作的结论不符。
为了阐述该问题,我们首先说明和先前工作最大的区别在于实验场景的不同:自由文本证据场景vs提取证据场景:
对于自由文本证据场景,目标是让模型根据候选选项对问题做出正确的选择,并生成连贯的自由文本段落作为支持其决策的证据。对于提取证据场景,目标是让模型根据给定的文章提供问题的答案,同时从文章中提取句子作为证据以支持其决策。
先前的工作揭示了在自由文本证据场景中,pipeline框架面临以下挑战:
由于在self-attribution阶段产生的质量差的证据导致的级联错误。
Pipeline往往将参数的数量增加一倍,以达到与端到端(I→OR)框架相当的性能,但通常性能仍然更差。
然而,这些挑战在提取证据场景中并不存在。关于挑战1,如表2所示,我们的SADM框架确保了在Self-Attribution阶段生成证据的质量。我们将这种能力归因于在基于T5的模型上使用信息提取(IE)任务的可行性。然而,在自由文本证据场景中,使用T5生成自由文本仍然存在挑战。对于挑战2,这在我们提出的框架中得到了解决。如图2所示,我们的pipeline框架在训练的两个阶段之间共享参数。在不增加额外参数的情况下,我们的框架可以获得更好的性能。
因此,在不同的场景下,我们可以考虑基座模型的能力从而选择不同的架构。
4.2 ChatGPT在该任务上的性能如何?
在rebuttal阶段,我们补充了关于对ChatGPT的分析(https://openreview.net/forum?id=xJ3O94DnMZ¬eId=LyQNj6XpjJ)。实验结果表明,我们的模型在各种其他数据集和指标上优于ChatGPT。我们将此归因于两个关键因素:
我们的数据主要由冗长的文本组成,充满了复杂和嘈杂的信息。处理复杂的信息对任何语言模型都是一个挑战,包括ChatGPT,特别是没有针对我们的特定场景进行微调的语言模型。
我们的任务包括从文章中提取句子作为证据,类似于信息提取(Information Extraction, IE)任务。值得注意的是,有大量的工作[3][4]表明,ChatGPT在IE任务上的性能明显弱于精细调整的较小模型。因此,与ChatGPT相比,我们的模型的优越性能并不奇怪。
即便如此,我们也并不能认为ChatGPT的能力较弱。正如4.1讨论的,我们需要考虑基座模型本身的能力。ChatGPT的强大之处在于其生成能力而不是抽取,如果我们不严格控制ChatGPT从文本中提取证据,而是鼓励ChatGPT生成一段自由文本的证据,也许会展现一个不一样的结果。
参考文献
[1] Jay DeYoung, Sarthak Jain, Nazneen Fatema Rajani, Eric Lehman, Caiming Xiong, Richard Socher, and Byron C Wallace. 2019. Eraser: A benchmark to evaluate rationalized nlp models. arXiv preprint arXiv:1911.03429.
[2] Kushal Lakhotia, Bhargavi Paranjape, Asish Ghoshal, Wen-tau Yih, Yashar Mehdad, and Srinivasan Iyer. 2020. Fid-ex: Improving sequence-to-sequence models for extractive rationale generation. arXiv preprint arXiv:2012.15482.
[3] Jonathan St BT Evans. 1984. Heuristic and analytic processes in reasoning. British Journal of Psychology, 75(4):451–468.
[4] Gautier Izacard and Edouard Grave. 2020. Leveraging passage retrieval with generative models for open domain question answering. arXiv preprint arXiv:2007.01282.
[5] Sarah Wiegreffe, Ana Marasovic, and Noah A Smith. ´ 2020. Measuring association between labels and freetext rationales. arXiv preprint arXiv:2010.12762.
[6] Bhargavi Paranjape, Mandar Joshi, John Thickstun, Hannaneh Hajishirzi, and Luke Zettlemoyer. 2020. An information bottleneck approach for controlling conciseness in rationale extraction. arXiv preprint arXiv:2005.00652.
[7] Asish Ghoshal, Srinivasan Iyer, Bhargavi Paranjape, Kushal Lakhotia, Scott Wen-tau Yih, and Yashar Mehdad. 2022. Quaser: Question answering with scalable extractive rationalization. In Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 1208–1218.
[8] James Thorne, Andreas Vlachos, Christos Christodoulopoulos, and Arpit Mittal. 2018. Fever: a large-scale dataset for fact extraction and verification. arXiv preprint arXiv:1803.05355.
[9] Daniel Khashabi, Snigdha Chaturvedi, Michael Roth, Shyam Upadhyay, and Dan Roth. 2018. Looking beyond the surface: A challenge set for reading comprehension over multiple sentences. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 252–262.
[10] Christopher Clark, Kenton Lee, Ming-Wei Chang, Tom Kwiatkowski, Michael Collins, and Kristina Toutanova. 2019. Boolq: Exploring the surprising difficulty of natural yes/no questions. arXiv preprint arXiv:1905.10044.
[11] Eric Lehman, Jay DeYoung, Regina Barzilay, and Byron C Wallace. 2019. Inferring which medical treatments work from reports of clinical trials. arXiv preprint arXiv:1904.01606.
[12] Omar Zaidan and Jason Eisner. 2008. Modeling annotators: A generative approach to learning from annotator rationales. In Proceedings of the 2008 conference on Empirical methods in natural language processing, pages 31–40.
[13] Sharan Narang, Colin Raffel, Katherine Lee, Adam Roberts, Noah Fiedel, and Karishma Malkan. 2020. Wt5?! training text-to-text models to explain their predictions. arXiv preprint arXiv:2004.14546.
本期责任编辑:赵森栋
本期编辑:李宝航
公众号后台回复aaai、acl、naacl直接进投稿群~
回复LLM进入技术交流群~