赫尔辛基--(美国商业资讯)--据芬兰司法部委托Utopia Analytics进行的一项研究,网上仇恨言论最容易出现在论坛上。该报告发现,97%的已识别仇恨言论信息来自于论坛。随后的平台类型是占2.5%的Twitter信息和占0.2%的Instagram信息。而博客、新闻评论和公开的Facebook信息占所有已识别仇恨言论的比例不到0.02%。这些数据集不包括私人讨论,如Facebook组或帐户。
该项目是芬兰司法部 “Facts Against Hate”计划的组成部分,旨在测试人工智能在网络环境中识别仇恨言论的能力。该方法将人类评估与机器学习相结合。项目的一个关键目标是找到仇恨言论的主要渠道,并识别平台之间的差异。
仇恨言论的定义基于社会科学的学术研究结果。该定义通过如下过程完成:首先确定仇恨言论的类别,然后使用类别数据在网络信息数据集中人工识别出仇恨言论的例子。这些标注随后被用作Utopia AI Moderator的训练数据,这是一个利用文本分析和机器学习且与语言无关的工具。该项目的数据集由2020年9月至10月以芬兰语发表的1,200万条在线评论和帖子构成。
结果显示,芬兰公开的社交媒体平台上每月出现大约15万条包含仇恨言论的信息,约占所有信息的1.8%。
在国际公共社交媒体平台中,Twitter似乎最为突出,有7,450条信息被认定为仇恨言论,占所有推文的0.14%。转发在传播这些信息中发挥了重要作用:所有仇恨言论推文中有39%是重复的。
Utopia首席执行官Mari-Sanna Paukkeri博士表示:“尽管数据集主要由芬兰语消息构成,但其他语言中的结果也会非常相似。例如,芬兰仇恨言论的主要平台Ylilauta其实就是大家都熟知的4chan的芬兰版。此外,只需要两周,我们就可以建立一个类似的人工智能模型来识别其他任何语言中的仇恨言论。只需要一位具备相关技能的专业人员告诉我们对应文化和语言中如何定义仇恨言论即可,另外我们还需要具体数据来进行分析。”