数据背景
数据为用户在汽车论坛中对汽车相关内容的讨论或评价。
数据说明
(1)训练数据: 训练数据为CSV格式,以英文半角逗号分隔,首行为表头,字段说明如下:
字段名称 | 类型 | 描述 | 说明 |
---|---|---|---|
content_id | Int | 数据ID | / |
content | String | 文本内容 | / |
subject | String | 主题 | 提取或依据上下文归纳出来的主题 |
sentiment_value | Int | 情感分析 | 分析出的情感 |
sentiment_word | String | 情感词 | 情感词 |
训练集数据中主题被分为10类,包括:动力、价格、内饰、配置、安全性、外观、操控、油耗、空间、舒适性。
情感分为3类,分别用数字0、1、-1表示中立、正向、负向。
content_id与content一一对应,但同一条content中可能会包含多个主题,此时出现多条记录标注不同的主题及情感,因此在整个训练集中content_id存在重复值。其中content_id,content,subject,sentiment_value对应字段不能为空且顺序不可更改,否则提交失败。
仅小部分训练数据包含有情感词sentiment_word,大部分为空,情感词不作为评分依据。
字段顺序为:content_id,content,subject,sentiment_value,sentiment_word
(2)测试数据:测试数据为CSV格式,首行为表头,字段为:
字段名称 | 类型 | 描述 |
---|---|---|
content_id | Int | 数据ID |
content | String | 文本内容 |
作品要求
提交csv文件,使用UTF-8编码格式,提交的字段要求与训练数据一致,具体可参见结果提交样例文件 test_result.csv:
字段名称 | 类型 | 描述 | 说明 |
---|---|---|---|
content_id | Int | 数据ID | / |
content | String | 文本内容 | |
subject | String | 主题 | 提取或依据上下文归纳出来的主题 |
sentiment_value | Int | 情感分析 | 情感值(-1:负向 0:中性 1:正向) |
sentiment_word | String | 情感词 | 情感词 |
参赛者提交的结果数据中,每行数据的subject必须为训练集中给出的10类之一,即:动力、价格、内饰、配置、安全性、外观、操控、油耗、空间、舒适性中的一个。
参赛者提交的结果数据中,每行数据的sentiment_value必须为训练集中给出的3类之一,即:0、1、-1中的一个。
content_id必须与测试集数据相同,对于同一条content中分析出多个主题和情感,应以多条记录(多行数据)的方式进行提交,且content_id不变。
本赛题在判断结果正确性时按照“主题+情感值”精确匹配的方式,参赛者如无法得出“主题”或“情感值”任意一项,则此条数据也应被包含在结果数据中,除id外其他为空即可。
评分方式
本赛题采用F1-Score评价方式。按照“主题+情感分析”识别数量和结果(是否正确)来进行判断,参赛者需要识别文本中可能包含的多个“主题”。
(1)匹配识别结果
Tp:判断正确的数量;
Fp:判断错误或多判的数量;
Fn;漏判的数量;
关于Tp、Fp、Fn的统计规则说明如下:
当提交的一条数据结果包含“主题+情感值”,如果参赛者对“主题+情感”的判断结果完全正确则计入Tp,如果对“主题”或“情感值”的判断结果错误则计入Fp&#