目录
0. 前言
我们是“炬火”,在此次评测中B榜第6,三等奖。本文除介绍我们自己的竞赛方案外,还将总结其它获奖队伍的技术报告,并对此类竞赛给出个人意见。
1. 赛事简介
此次比赛报名队伍共189支,其中刷榜队伍有77支,提交最终结果的队伍仅42支
SMP2020微博情绪分类技术评测(The Evaluation of Weibo Emotion Classification Technology,SMP2020-EWECT)共包含两类数据集,分别是通用(usual)与疫情(virus),这两类数据集都包含六类情绪,积极(happy)、愤怒(angry)、悲伤(sad)、恐惧(fear)、惊奇(surprise)和无情绪(neural)。
1.1 数据详情
训练集 | 刷榜验证集 | 最终评测集 | |
---|---|---|---|
usual | 27768 | 2000 | 5000 |
virus | 8606 | 2000 | 3000 |
通用数据集:该数据集内的微博内容是随机获取到微博内容,不针对特定的话题,覆盖的范围较广。
疫情数据集:该数据集内的微博内容是在疫情期间使用相关关键字筛选获得的疫情微博,其内容与新冠疫情相关。
情绪 | 通用 | 疫情 |
---|---|---|
积极 | 哥,你猜猜看和喜欢的人一起做公益是什么感觉呢。我们的项目已经进入一个新阶段了,现在特别有成就感。加油加油。 | 愿大家平安、健康[心]#致敬疫情前线医护人员# 愿大家都健康平安 |
愤怒 | 每个月都有特别气愤的时候。, | 整天歌颂医护人员伟大的自我牺牲精神,人家原本不用牺牲好吧!吃野味和隐瞒疫情的估计是同一波人,真的要死自己去死,别拉上无辜的人。 |
悲伤 | 回忆起老爸的点点滴滴,心痛…为什么.接受不了 | 救救武汉吧,受不了了泪奔,一群孩子穿上大人衣服学着救人请官方不要瞒报谎报耽误病情,求求武汉zf了[泪][泪][泪][泪] |
恐惧 | 明明是一篇言情小说,看完之后为什么会恐怖的睡不着呢,越想越害怕[吃驚] | 对着这个症状,没病的都害怕[允悲][允悲] |
惊奇 | 我竟然不知道kkw是丑女无敌里的那个 | 我特别震惊就是真的很多人上了厕所是不会洗手的。。。。 |
无情绪 | 我们做不到选择缘分,却可以珍惜缘分。 | 辟谣,盐水漱口没用。 |
可以看出,usual和virus虽然在主题上有较大差异,但同种情绪下的样例有着一定的相似性
1.2 类别分布
从图1、图2可以看出,两类数据集都存在数据不平衡的情况,其中virus更加严重
1.3 评测指标
本次评测以宏平均F1值作为评测指标,最终对通用微博测试集的测试结果和疫情微博的测试结果进行平均,作为最终的测试结果,即:
1.4 获奖队伍
队伍名称 | 机构名称 | 最终指标 |
---|---|---|
Tencent | Tencent Oteam | 0.7467 |
清博大数据 | 北京清博大数据科技有限公司 | 0.7393 |
拿第一导师请吃肯德基 | 东南大学 | 0.7360 |
BERT 4EVER | 广东外语外贸大学 | 0.7346 |
sys1884 | 大连理工大学 | 0.7337 |
炬火(ours) | 山西大学 | 0.7314 |
2. 我们的方案
2.1 数据预处理
2.1.1 数据清洗
我们进行了全角转半角、繁转简、英文大写转小写、去除url、去除email、去除@以及保留emoji等操作,表3展示了部分清洗数据,在模型处理中,我们限制数据的最大长度为140。
清洗策略 | 清洗前 | 清洗后 |
---|---|---|
繁转简/大写转小写 | 願2015餘下的日子里,美好能夠多一些,快樂能夠如影隨形…Goodmorning! | 愿2 |