hate-speech-dataset:基于白人至上论坛的仇恨言论数据集
项目介绍
在当今互联网环境中,仇恨言论的识别与处理是一项至关重要的任务。为了助力这一领域的研究,hate-speech-dataset 项目应运而生。该项目提供了一份从白人至上主义论坛Stormfront中提取的文本数据集。数据集中的文本经过随机抽样,并按照特定的标注指南被手动标注为包含或不包含仇恨言论。
这份数据集及相关标注指南的详细信息可以在相关论文[pdf]中找到。论文作者O. de Gibert、N. Perez、A. García-Pablos 和 M. Cuadros 在2018年第二届网络侮辱性语言研讨会(ALW2)上发表了这篇论文,题为《基于白人至上论坛的仇恨言论数据集》。
项目技术分析
hate-speech-dataset 项目在技术层面上,涵盖了以下几个关键组成部分:
-
数据集结构:数据集包含了四个主要文件夹:
- all_files:包含所有论坛帖子的文件夹,每个文件包含一个句子,文件名格式为 commentID_sentenceNumber.txt。
- sampled_train:从 all_files 中抽样得到的平衡数据集,用于实验训练。
- sampled_test:从 all_files 中抽样得到的平衡数据集,用于实验测试。
- annotations_metadata.csv:包含前述文件夹中每个文件的标签,以及标注者所需额外上下文、用户ID和子论坛ID的元数据文件。
-
数据标注:数据集中的每个句子都经过人工标注,分为“仇恨”和“非仇恨”两个类别。
-
数据使用:在使用本项目提供的数据时,需按照项目规定的引用格式进行引用。
项目及应用场景
hate-speech-dataset 项目的核心应用场景主要包括:
-
仇恨言论识别研究:数据集为研究人员提供了大量标注好的文本样本,有助于开发更精确的仇恨言论识别算法。
-
自然语言处理:数据集可用于自然语言处理领域,特别是在文本分类和情感分析方面的研究。
-
社会学研究:数据集可以用于分析仇恨言论在社会中的传播规律,以及不同群体对仇恨言论的态度和反应。
项目特点
hate-speech-dataset 项目具有以下几个显著特点:
-
真实性:数据集来源于真实的白人至上主义论坛,反映了现实中的仇恨言论情况。
-
人工标注:每个句子都经过人工标注,保证了数据集的准确性和可靠性。
-
平衡性:在训练和测试数据集中,对“仇恨”和“非仇恨”两个类别进行了平衡抽样,有助于提高模型的泛化能力。
-
开放性:项目遵循Creative Commons Attribution-ShareAlike 3.0 Spain License,允许用户自由使用和共享数据集。
总之,hate-speech-dataset 是一个极具价值的开源项目,为仇恨言论识别研究提供了宝贵的数据资源。通过利用这一数据集,研究人员可以开发出更有效的算法,为创建一个更加和谐的网络环境做出贡献。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考