⬆⬆⬆ 点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
社交网络上的意识形态分类任务有很广阔的应用场景。本工作从Twitter数据入手,获取Twitter数据后拟用图神经网络(Graph Neural Network)解决此问题。主流的图嵌入模型研究仅关注规模小而稀疏,且标签丰富的数据集,比如学术网络数据。许多真实应用场景,比如Twitter这种社交网络数据,规模大且连接稠密,但是标签却异常稀疏。这种大而稠密的数据使得主流嵌入模型效率很低,标签稀疏又非常容易产生过拟合现象。真实场景下的数据还往往具有特征不完全性和异质性的特点,进而带来更大的挑战。因此,我们提出了TIMME,一种针对多任务多关系的嵌入模型,利用多种关系类型作为补充来处理规模庞大而标签稀疏的图数据,并进一步提出了可以使得本模型能在特征缺失的情况下使用不完整的特征进行学习的方法。
肖之屏,UCLA CS 在读博士生, 导师为Prof. Yizhou Sun。当前的主要研究方向为社交网络上的数据挖掘。个人主页http://web.cs.ucla.edu/~patricia.xiao/。
一、Motivation:问题背景
什么是意识形态分类?在美国的政治环境中,意识形态可简单分为左倾(自由派)和右倾(保守派)。虽然在不同的社会议题上,普遍现象表明:不同的人对议题A左倾思想,并对议题B具有右倾思想,但是讲者在本工作中简化意识形态分类模型,认为每一个人只具有一种意识倾向,左倾or右倾。
讲者选择该研究课题的原因在于:对于像美国这样的普选制国家,意识形态分歧关系到美国民众生活的方方面面,尤其在大选年(2020)会更加关注意识形态的分歧,该研究课题具有一定的社会价值。此外,该研究课题面临了两个挑战性:
挑战一
如何采集普通人的意识形态数据?
解决方案:选择社交网络的数据作为切入点,由于普通人不像政治家通常在专门的网站上发表言论以及投票行为,对于普通人来说,并不能在公共场合集中地记录自己的政治立场,所以我们只能试图从其他方面,譬如推特上的行为,来寻找线索。
挑战二
如何基于有限的推特数据,尽可能地分析得知每一个的政治倾向?
解决方案:提出了TIMME模型。
为什么选择Twitter数据?讲者主要做了以下两点阐述。
原因一
Twitter提供了数据接口,可以合法、高效的获得Twitter提供的数据。
原因二
Twitter吸引了大量的政治家(具有非常明确的政治倾向),并将其认为是与公众交流互动的平台。政治家可作为采集数据的核心,是非常高质量的带标签的数据。
下图展示了Twitter数据的简单图结构,存在5种简单的关系模式:retweet、mention、like、reply、follow。
图1. Twitter数据集上不同