Twitter Sentiment Classification using Distant Supervision
论文能判别查询词(query term)情感倾向性;但始终没有理解Distant supervision的意思(估计是一种机器学习方法);
考虑到没有大量的标记数据做分类,所以采用将情感符号(例如,:) , :( )进行分类,然后通过情感符号对对微博的进行分类;
指出微博数据的一些特性:如,长度(length)、数据可获取性(data availability)、语言模式(language model)、域(domain);
论文主要用了三中分类算法(native bayes、maximum entropy、support vectors mechines),和特征抽取算法(查询词、情感符号、特征提出);
最后根据Twitter API获得的数据进行试验;
论文里没有写自己提出的模型;但给出了实验结果对比;
给出五个未来研究方向:1、semantic 从语义上分析情感性(例如、in the tweet Federer beats Nadal :), the sentiment is positive for Federer and negative for Nadal.);2、domain-specific domain 指定领域情感分类准确率将提高;3、handing neutral tweet 处理中立性(无情感色彩的)的微博;4、International 处理语言国际化;5、将情感数据用于测试数据集中;