Exploiting social relations for sentiment analysis in microblogging 利用社会关系进行微博情感分析(A10, WSDM2013)
文章通过提出一个社会学方法处理情感分类的噪声短文本(SANT)研究社会关系是否可以帮助情感分析。特别地,提出一个数学优化构想,引入情感一致性和情感传播理论到监督学习过程,同时利用稀疏学习处理微博中的噪声文本。
微博信息的一个明显特征是通过用户连接,它们被潜在地连接在一起,可能包含纯粹的基于文本的方法所没有的有用的语义线索。除了内容信息,信息之间的关系可以通过一个用户-信息矩阵和一个用户-用户交互矩阵表达。连接的个体更有可能有相似的行为或者持有相似的观点。
文章首先调查微博数据是否存在社会理论。然后讨论在监督情感分析中怎样建模和利用社会关系。最后,进行扩展实验验证提出的模型。
问题陈述
给定一个带内容X的微博信息语料T,对应的情感标签是Y,这个语料的社会关系包括用户-信息关系U,用户-用户关注关系F,旨在学习一个分类器W自动给没见过的信息指定情感标签。
数据和观察
采用两个公共可用的Twitter数据集的子集:STS(Stanford Twitter Sentiment)和OMD(Obama-McCain Debate)。两个数据集由带它们对应情感标签的原始微博组成。进一步根据作者的社会关系信息提炼Twitter数据集,根据参考文献爬取完全关注图。根据社会网络,过滤作者没有朋友或者发表少于2条微博的微博。
微博上的社会理论
情感一致性表明由同一个用户发表的两条信息的情感比两条随机选择的信息更可能一致。情感传播揭示朋友发表的两条信息的情感比两条随机选择的信息更可能相似。两个理论由离线调查和会话产生。
验证两个社会理论。两条信息的情感差异得分定义为 Tij=||yi−yj||2 , yi 是信息 xi 的情感标签。为了验证情感一致性,用相同数量的元素建立两个向量 sct 和 scr 。第一个向量的每个元素通过计算两条同一个用户发表的信息 xi 和 xj 的情感差异得分得到。向量的每个元素对应一对相关信息。第二个向量的每个元素代表 xi 和语料中另一条随机信息 xr 的情感差异得分。在两个向量 sct 和 scr 上进行学生t检验。假设 H0:sct=scr , H1:sct<scr 。相似地,构建另外两个向量 ect 和 ecr ,进行学生t检验验证情感传播。假设 H0:ect=ecr , H1:e