【汽车行业用户观点主题及情感识别】数据介绍-CSDN博客

本文链接：https://blog.csdn.net/qq_17677907/article/details/88377303

该数据集包含汽车论坛用户的讨论，涉及动力、价格等10类主题和正向、负向、中立3种情感。参赛者需提交CSV文件，识别内容的主题和情感，以F1-Score作为评分标准。AB榜用于防止过拟合，允许使用外部数据但需说明来源。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

数据背景
数据说明
- - - 作品要求
    - 评分方式
相关问题

数据背景

数据为用户在汽车论坛中对汽车相关内容的讨论或评价。

数据说明

（1）训练数据：训练数据为CSV格式，以英文半角逗号分隔，首行为表头，字段说明如下：

字段名称	类型	描述	说明
content_id	Int	数据ID	/
content	String	文本内容	/
subject	String	主题	提取或依据上下文归纳出来的主题
sentiment_value	Int	情感分析	分析出的情感
sentiment_word	String	情感词	情感词

训练集数据中主题被分为10类，包括：动力、价格、内饰、配置、安全性、外观、操控、油耗、空间、舒适性。

情感分为3类，分别用数字0、1、-1表示中立、正向、负向。

content_id与content一一对应，但同一条content中可能会包含多个主题，此时出现多条记录标注不同的主题及情感，因此在整个训练集中content_id存在重复值。其中content_id，content，subject，sentiment_value对应字段不能为空且顺序不可更改，否则提交失败。

仅小部分训练数据包含有情感词sentiment_word，大部分为空，情感词不作为评分依据。

字段顺序为：content_id，content，subject，sentiment_value，sentiment_word

（2）测试数据：测试数据为CSV格式，首行为表头，字段为：

字段名称	类型	描述
content_id	Int	数据ID
content	String	文本内容

作品要求

提交csv文件，使用UTF-8编码格式，提交的字段要求与训练数据一致，具体可参见结果提交样例文件 test_result.csv：

字段名称	类型	描述	说明
content_id	Int	数据ID	/
content	String	文本内容
subject	String	主题	提取或依据上下文归纳出来的主题
sentiment_value	Int	情感分析	情感值（-1:负向 0:中性 1:正向）
sentiment_word	String	情感词	情感词