立场检测数据集

文章介绍了立场检测在识别文本态度、政治偏见和假新闻检测中的重要性。提到了几个知名数据集,如SemEval-2016和2019的任务数据,FakeNewsNet,UKP参数挖掘语料库,以及Twitter美国航空公司情绪数据集,这些数据集用于训练和评估立场检测算法。
摘要由CSDN通过智能技术生成

        立场检测是确定对文本中给定主题表达的态度或观点的任务。它是自然语言处理中的一个重要问题,因为它具有许多实际应用,例如识别新闻文章中的政治偏见,了解社交媒体上的舆论以及检测假新闻。

        已经创建了多个用于姿态检测的数据集,它们在涵盖的主题,数据集的大小,注释方案和文本来源方面有所不同。以下是一些最受欢迎的立场检测数据集:

        SemEval-2016任务6: 此数据集是为检测推文中的立场的SemEval-2016共享任务创建的。它由一组关于五个不同主题的推文组成,包括气候变化和希拉里·克林顿,以及它们相应的立场 (即赞成、反对或中立)。数据集总共包含2,085条推文。

        (SemEval:国际语义评测大会,国际语义评测大会SemEval是全球范围内影响力最强、规模最大、参赛人数最多的语义评测竞赛。目的是:评估机器的能力(和人类的差距)。除此之外,根据Google Scholar的数据,发表在SemEval的文章在Computational Linguistics领域的影响力仅次于ACL/EMNLP/NAACL三大会和最大的期刊TACL,位于NLP会议、期刊中的第五位。每个参赛者在完成某个task之后,可以撰写一篇论文描述自己的方法和结果并投稿到SemEval,文被接收的参赛者可以参与会议)

        SemEval-2019任务7: 此数据集是为在线辩论中检测立场的SemEval-2019共享任务创建的。它包括一组关于各种主题的辩论帖子,以及它们相应的立场 (即同意、不同意或不相关)。数据集总共包含3,407个辩论帖子。

        FakeNewsNet: 此数据集是为检测假新闻的任务而创建的。它由一组新闻文章及其相应的立场 (即正确,错误或未经验证) 组成。数据集总共包含2,500篇新闻文章。

        UKP句子参数挖掘语料库: 此数据集是为参数挖掘任务创建的,其中包括作为子任务的姿态检测。它包括一组议论文,以及它们相应的论点成分 (即主张,前提或反驳) 及其立场 (即同意,不同意或两者都不同意)。数据集总共包含2,848个参数组件。

        Twitter美国航空公司情绪: 该数据集是为情绪分析任务而创建的,但也可以用于立场检测。它包括一组关于六家不同美国航空公司的推文,以及它们相应的情绪 (即积极、消极或中立)。数据集总共包含14,640条推文。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值