微博情绪分析评测(smp2020-ewect) 参赛总结

本文介绍了smp2020-ewect微博情绪分析比赛的总结,包括赛事简介、数据分布、评测指标和获奖队伍的方案。我们的方案中,数据预处理涉及清洗和扩充,模型结构采用LSTM-Attention,应用了FGM对抗学习和迁移学习。其他队伍如Tencent使用BERT forest模型集成,清博大数据进行了预训练和数据增强,拿第一导师请吃肯德基团队采用多模型融合策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

0. 前言

我们是“炬火”,在此次评测中B榜第6,三等奖。本文除介绍我们自己的竞赛方案外,还将总结其它获奖队伍的技术报告,并对此类竞赛给出个人意见。

1. 赛事简介

此次比赛报名队伍共189支,其中刷榜队伍有77支,提交最终结果的队伍仅42支

SMP2020微博情绪分类技术评测(The Evaluation of Weibo Emotion Classification Technology,SMP2020-EWECT)共包含两类数据集,分别是通用(usual)疫情(virus),这两类数据集都包含六类情绪,积极(happy)、愤怒(angry)、悲伤(sad)、恐惧(fear)、惊奇(surprise)和无情绪(neural)

1.1 数据详情

表1 数据集规模
训练集 刷榜验证集 最终评测集
usual 27768 2000 5000
virus 8606 2000 3000

通用数据集:该数据集内的微博内容是随机获取到微博内容,不针对特定的话题,覆盖的范围较广。
疫情数据集:该数据集内的微博内容是在疫情期间使用相关关键字筛选获得的疫情微博,其内容与新冠疫情相关。

表2 数据示例
情绪 通用 疫情
积极 哥,你猜猜看和喜欢的人一起做公益是什么感觉呢。我们的项目已经进入一个新阶段了,现在特别有成就感。加油加油。 愿大家平安、健康[心]#致敬疫情前线医护人员# 愿大家都健康平安
愤怒 每个月都有特别气愤的时候。, 整天歌颂医护人员伟大的自我牺牲精神,人家原本不用牺牲好吧!吃野味和隐瞒疫情的估计是同一波人,真的要死自己去死,别拉上无辜的人。
悲伤 回忆起老爸的点点滴滴,心痛…为什么.接受不了 救救武汉吧,受不了了泪奔,一群孩子穿上大人衣服学着救人请官方不要瞒报谎报耽误病情,求求武汉zf了[泪][泪][泪][泪]
恐惧 明明是一篇言情小说,看完之后为什么会恐怖的睡不着呢,越想越害怕[吃驚] 对着这个症状,没病的都害怕[允悲][允悲]
惊奇 我竟然不知道kkw是丑女无敌里的那个 我特别震惊就是真的很多人上了厕所是不会洗手的。。。。
无情绪 我们做不到选择缘分,却可以珍惜缘分。 辟谣,盐水漱口没用。

可以看出,usual和virus虽然在主题上有较大差异,但同种情绪下的样例有着一定的相似性

1.2 类别分布

图1 usual类别分布图

图1 usual类别分布图

图2 virus类别分布图

图2 virus类别分布图

从图1、图2可以看出,两类数据集都存在数据不平衡的情况,其中virus更加严重

1.3 评测指标

本次评测以宏平均F1值作为评测指标,最终对通用微博测试集的测试结果和疫情微博的测试结果进行平均,作为最终的测试结果,即:
评测指标

1.4 获奖队伍

队伍名称 机构名称 最终指标
Tencent Tencent Oteam 0.7467
清博大数据 北京清博大数据科技有限公司 0.7393
拿第一导师请吃肯德基 东南大学 0.7360
BERT 4EVER 广东外语外贸大学 0.7346
sys1884 大连理工大学 0.7337
炬火(ours) 山西大学 0.7314

2. 我们的方案

2.1 数据预处理

2.1.1 数据清洗

我们进行了全角转半角、繁转简、英文大写转小写、去除url、去除email、去除@以及保留emoji等操作,表3展示了部分清洗数据,在模型处理中,我们限制数据的最大长度为140。

表3 数据清洗样例
清洗策略 清洗前 清洗后
繁转简/大写转小写 願2015餘下的日子里,美好能夠多一些,快樂能夠如影隨形…Goodmorning! 愿2
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值