微博情绪分析评测（smp2020-ewect）参赛总结

最新推荐文章于 2024-04-20 10:00:48 发布

尾巴越过警戒线

最新推荐文章于 2024-04-20 10:00:48 发布

阅读量5.5k

点赞数 7

分类专栏：情感分类文章标签：人工智能自然语言处理 pytorch 分类算法

本文链接：https://blog.csdn.net/qq_40200387/article/details/108457693

版权

本文介绍了smp2020-ewect微博情绪分析比赛的总结，包括赛事简介、数据分布、评测指标和获奖队伍的方案。我们的方案中，数据预处理涉及清洗和扩充，模型结构采用LSTM-Attention，应用了FGM对抗学习和迁移学习。其他队伍如Tencent使用BERT forest模型集成，清博大数据进行了预训练和数据增强，拿第一导师请吃肯德基团队采用多模型融合策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

0. 前言

我们是“炬火”，在此次评测中B榜第6，三等奖。本文除介绍我们自己的竞赛方案外，还将总结其它获奖队伍的技术报告，并对此类竞赛给出个人意见。

1. 赛事简介

此次比赛报名队伍共189支，其中刷榜队伍有77支，提交最终结果的队伍仅42支

SMP2020微博情绪分类技术评测（The Evaluation of Weibo Emotion Classification Technology，SMP2020-EWECT）共包含两类数据集，分别是通用（usual）与疫情（virus），这两类数据集都包含六类情绪，积极(happy)、愤怒(angry)、悲伤(sad)、恐惧(fear)、惊奇(surprise)和无情绪(neural)。

1.1 数据详情

表1 数据集规模

	训练集	刷榜验证集	最终评测集
usual	27768	2000	5000
virus	8606	2000	3000

通用数据集：该数据集内的微博内容是随机获取到微博内容，不针对特定的话题，覆盖的范围较广。
疫情数据集：该数据集内的微博内容是在疫情期间使用相关关键字筛选获得的疫情微博，其内容与新冠疫情相关。

表2 数据示例

情绪	通用	疫情
积极	哥，你猜猜看和喜欢的人一起做公益是什么感觉呢。我们的项目已经进入一个新阶段了，现在特别有成就感。加油加油。	愿大家平安、健康[心]#致敬疫情前线医护人员# 愿大家都健康平安
愤怒	每个月都有特别气愤的时候。，	整天歌颂医护人员伟大的自我牺牲精神，人家原本不用牺牲好吧！吃野味和隐瞒疫情的估计是同一波人，真的要死自己去死，别拉上无辜的人。
悲伤	回忆起老爸的点点滴滴，心痛…为什么.接受不了	救救武汉吧，受不了了泪奔，一群孩子穿上大人衣服学着救人请官方不要瞒报谎报耽误病情，求求武汉zf了[泪][泪][泪][泪]
恐惧	明明是一篇言情小说，看完之后为什么会恐怖的睡不着呢，越想越害怕[吃驚]	对着这个症状，没病的都害怕[允悲][允悲]
惊奇	我竟然不知道kkw是丑女无敌里的那个	我特别震惊就是真的很多人上了厕所是不会洗手的。。。。
无情绪	我们做不到选择缘分，却可以珍惜缘分。	辟谣，盐水漱口没用。

可以看出，usual和virus虽然在主题上有较大差异，但同种情绪下的样例有着一定的相似性

1.2 类别分布

图1 usual类别分布图

图2 virus类别分布图

从图1、图2可以看出，两类数据集都存在数据不平衡的情况，其中virus更加严重

1.3 评测指标

本次评测以宏平均F1值作为评测指标，最终对通用微博测试集的测试结果和疫情微博的测试结果进行平均，作为最终的测试结果，即：

1.4 获奖队伍

队伍名称	机构名称	最终指标
Tencent	Tencent Oteam	0.7467
清博大数据	北京清博大数据科技有限公司	0.7393
拿第一导师请吃肯德基	东南大学	0.7360
BERT 4EVER	广东外语外贸大学	0.7346
sys1884	大连理工大学	0.7337
炬火（ours）	山西大学	0.7314