【汽车行业用户观点主题及情感识别】数据介绍

该数据集包含汽车论坛用户的讨论,涉及动力、价格等10类主题和正向、负向、中立3种情感。参赛者需提交CSV文件,识别内容的主题和情感,以F1-Score作为评分标准。AB榜用于防止过拟合,允许使用外部数据但需说明来源。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据背景

数据为用户在汽车论坛中对汽车相关内容的讨论或评价。

数据说明

(1)训练数据: 训练数据为CSV格式,以英文半角逗号分隔,首行为表头,字段说明如下:

字段名称 类型 描述 说明
content_id Int 数据ID /
content String 文本内容 /
subject String 主题 提取或依据上下文归纳出来的主题
sentiment_value Int 情感分析 分析出的情感
sentiment_word String 情感词 情感词

训练集数据中主题被分为10类,包括:动力、价格、内饰、配置、安全性、外观、操控、油耗、空间、舒适性。

情感分为3类,分别用数字0、1、-1表示中立、正向、负向。

content_id与content一一对应,但同一条content中可能会包含多个主题,此时出现多条记录标注不同的主题及情感,因此在整个训练集中content_id存在重复值。其中content_id,content,subject,sentiment_value对应字段不能为空且顺序不可更改,否则提交失败。

仅小部分训练数据包含有情感词sentiment_word,大部分为空,情感词不作为评分依据。

字段顺序为:content_id,content,subject,sentiment_value,sentiment_word

(2)测试数据:测试数据为CSV格式,首行为表头,字段为:

字段名称 类型 描述
content_id Int 数据ID
content String 文本内容
作品要求

提交csv文件,使用UTF-8编码格式,提交的字段要求与训练数据一致,具体可参见结果提交样例文件 test_result.csv:

字段名称 类型 描述 说明
content_id Int 数据ID /
content String 文本内容
subject String 主题 提取或依据上下文归纳出来的主题
sentiment_value Int 情感分析 情感值(-1:负向 0:中性 1:正向)
sentiment_word String 情感词 情感词

参赛者提交的结果数据中,每行数据的subject必须为训练集中给出的10类之一,即:动力、价格、内饰、配置、安全性、外观、操控、油耗、空间、舒适性中的一个。

参赛者提交的结果数据中,每行数据的sentiment_value必须为训练集中给出的3类之一,即:0、1、-1中的一个。

content_id必须与测试集数据相同,对于同一条content中分析出多个主题和情感,应以多条记录(多行数据)的方式进行提交,且content_id不变。

本赛题在判断结果正确性时按照“主题+情感值”精确匹配的方式,参赛者如无法得出“主题”或“情感值”任意一项,则此条数据也应被包含在结果数据中,除id外其他为空即可。

评分方式

本赛题采用F1-Score评价方式。按照“主题+情感分析”识别数量和结果(是否正确)来进行判断,参赛者需要识别文本中可能包含的多个“主题”。

(1)匹配识别结果
Tp:判断正确的数量;
Fp:判断错误或多判的数量;
Fn;漏判的数量;
关于Tp、Fp、Fn的统计规则说明如下:

当提交的一条数据结果包含“主题+情感值”,如果参赛者对“主题+情感”的判断结果完全正确则计入Tp,如果对“主题”或“情感值”的判断结果错误则计入Fp&#

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值