SemEval 的发展:
SemEval 数据集完成基本任务是推特的情感分析(Sentiment Analysis in Twitter)。对于推特的文本情感分析基于SemEval 数据集始于2013年,之后任务和数据都在不断发展为更复杂。在13年到15年,任务是简单给一个推特文本,然后进行文本情感分类,分为3类(积极、消极、中立),称为任务A;
于2015年,在任务和任务中引入了Topic的概念,任务升级为给一个推特,并给一个topic;推断推特内容关于这个topic的情感倾向,积极或消极(任务B);
于2016年,引入了两个分支,一是加入了tweet quantification,也就是推特的量化分析;二是five-point ordinal classification
,也就是之前是推特的三分类,16年拓展为五分类(STRONGLYPOSITIVE, WEAKLYPOSITIVE, NEUTRAL, WEAKLYNEGATIVE, and STRONGLYNEGATIVE)。
于2017年,新增了阿拉伯,在此之前只有英语。由于阿拉伯语在Twitter的丰富的形态和丰富的方言使用,使得阿拉伯语在文本情感分析增加难度挑战。
最新2017任务:
SemEval-2017任务4由五个子任务组成, 每个都提供阿拉伯语和英语:
1.Subtask A:
分析一个推特的情感,可以分为积极、消极、中立
2.Subtask B:
给一个推特,并给一个topic;推断推特内容关于这个topic的情感倾向,积极或消极。
3.Subtask C:
在B任务的基础上,更加精细地分类,分为非常积极、弱倾向积极、中立、弱倾向于消极、非常消极(五个程度)
4.Subtask D:
关于一个topic,给出一组的推特,估计这些推特在积极和消极的分布
5.Subtask E:
关于一个topic,给出一组的推 特,估计这些推特在五个情感程度的分布。