摘要
虽然已经提出了一些公共基准用于训练仇恨言论检测模型,但这些基准之间的标注标准差异为模型的泛化学习带来了挑战,限制了其适用性。先前的研究提出了通过数据整合或扩充来泛化模型的方法,但在克服数据集之间的标注标准差异方面仍然存在局限性。为了解决这些挑战,我们提出了PREDICT,一种基于多代理(multi-agent)概念的仇恨言论检测新框架。PREDICT包括两个阶段:(1)PRE(基于视角的推理):根据给定数据集的标注标准创建多个代理,每个代理生成立场和推理;(2)DICT(使用不一致参考进行辩论):代表仇恨和非仇恨立场的代理进行辩论,裁判代理负责分类仇恨或非仇恨并提供平衡的理由。对五个代表性公共基准的实验表明,PREDICT在跨评估性能上优于专注于特定标注标准或多数投票的方法。此外,我们验证了PREDICT能够有效调解代理之间的意见分歧,并适当地整合少数意见以达成共识。我们的代码可在GitHub - Hanyang-HCC-Lab/PREDICT: Multi-Agent-based Debate Simulation for Generalized Hate Speech Detection获取。
1. 引言
互联网仇恨言论的增长已成为一个重要的社会问题,促使研究人员对仇恨言论检测展开了广泛研究(Moy等,2021;Jahan和Oussalah,2023;Zhou等,2021)。仇恨言论检测面临的主要难题之一是泛化性(Yin和Zubiaga,2021),即在特定数据集上训练的高效模型在应用于不同数据集时可能表现不佳(Cai等,2022)。这种泛化困难主要源于各种标注标准的差异(Ramalingam等,2022),包括:
- 目标(识别社交和历史背景中的仇恨言论、基于情感分类仇恨言论,或专注于仇恨言论的目标对象),
- 标注方法(标注员数量、标注流程及指南),
- 标注粒度(多类或二元分类),
- 数据集规模,
- 数据收集的时间与方法(Sachdeva等,2022;Khurana等,2022)。
因此,需要一种不依赖于特定标注标准的方法,以提高仇恨言论检测的泛化能力。
先前研究
以往的研究尝试通过多种方法来解决泛化性问题,包括数据整合、数据增强和解释生成。例如:
- 通过整合涵盖性别和种族等不同主题的数据集(Bourgeade等,2023),模型可以学习更广泛的仇恨言论模式。然而,由于不同数据集的标注差异,相似词语或表达的句子可能被赋予不同标签,导致模型在一致性上的困惑。
- 使用GPT-2进行数据增强(Wullach等,2021)可以帮助模型学习各种形式的仇恨言论,但此方法的局限性在于可能生成与原始数据集中存在的重复模式。
- 利用GPT生成的解释进行训练(Yang等,2023)依赖于特定的标注标准,导致在不同标注标准数据集上的表现欠佳。
尽管上述方法在一定程度上提高了仇恨言论检测的性能,但它们在将不同标注标准纳入模型训练或推理过程中仍存在不足。
我们的研究
本研究采用多元视角方法(Waseem等,2018),旨在尊重和包容多种观点,以建立共识,并应对数据集中不同标注标准导致的过拟合问题。最近的社会科学研究强调多元主义在仇恨言论问题中的价值(Tontodimamma等,2021),主张包容多样化的价值观和观点,并强调理性整合这些观点以达成社会共识的必要性(Dudley-Marling和Burns,2014;Feldman,2021)。
在本文中,我们提出了PREDICT框架,该框架利用**大语言模型(LLM)**构建一个多代理(multi-agent)辩论环境,每个代理根据仇恨言论数据集的标注标准拥有独立的观点,并模拟多元决策过程。PREDICT包括两个阶段:
- PRE(基于视角的推理):在该阶段,代理根据分配的标注标准和相似上下文形成观点。
- DICT(使用不一致参考进行辩论):在该阶段,两个立场对立的代理进行辩论,最终由裁判代理提供最终标签和理由。DICT阶段的决策过程借鉴了Liang等(2023)和Xiong等(2023)的研究,进行两轮辩论以达成最终决定。<