百分点认知智能实验室:疫情情绪识别大赛的亚军是如何炼成的

编者按

为助力疫情防控和疫情之后的经济社会恢复工作,推动北京市政府数据开放,吸纳大数据产业顶尖社会资源,充分释放专业人才智慧资源,北京市经济和信息化局、中国计算机学会大数据专家委员会联合主办科技战疫·大数据公益挑战赛。

北京百分点信息科技有限公司认知智能实验室参加了该挑战赛中的“疫情期间网民情绪识别“比赛,该赛题也是第二十六届全国信息检索学术会议 (The 26th China Conference on Information Retrieval, CCIR 2020)评测大赛赛题。经过长达2个多月的激烈角逐,百分点认知智能实验室从2049支参赛队伍中脱颖而出,取得了A榜第1,B榜第2的成绩,并且通过决赛的答辩,获得了该比赛的亚军。

本文作者:易显维 苏海波

1. 背景介绍

2019新型冠状病毒(COVID-19)感染的肺炎疫情发生对人们生活生产的方方面面产生了重要影响,并引发国内舆论的广泛关注,众多网民参与疫情相关话题的讨论。为了帮助政府掌握真实社会舆论情况,科学高效地做好防控宣传和舆情引导工作,主办方组织了“疫情期间网民情绪识别”的评测大赛,吸引了2049支队伍的参加,包括各大知名高校以及大数据和人工智能企业。

具体的赛题任务是给定微博ID和微博内容,设计算法对微博内容进行情绪识别,判断微博内容是积极的、消极的还是中性的,具体可以见下图1。同时本赛题也是第二十六届全国信息检索学术会议 CCIR 2020评测大赛赛题。

图1. 赛题任务介绍

2. 方案概述

首先是数据分析,我们发现比赛数据的特点是微博口语化严重、存在表情符、配图随意性强,而且存在分类标准模糊、图片和文本数据混合等众多挑战,具体见下图2。

图2. 比赛数据特点(微博)

在比赛过程中,我们分析出了此次赛题的三个挑战,首先是文本情绪的分类标准较为模糊,且文本字段中有较多干扰;其次图片特征和时间戳特征需要考虑到模型中去;除此技术方面的挑战之外,此任务为文本分类典型任务,竞争非常激烈。

<
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值