1、Social sentiment sensor: a visualization system for topic detection and topic sentiment analysis on microblog来自哈工大做自然语言理解的研究组发表的。该篇论文主要是针对微博数据做热点话题的分析以及对这些热点话题倾向性分析。主题分析这块儿分1预处理(过滤掉不足4个gram的多于30个gram的、大促、垃圾微博主题、日期)2层次聚类(分词表示VSM,用cosine距离计算相似度)。为了防止类似“马航失联”与“飞机去哪儿”关联不到,特别引入背景知识。假设两个相同主题的背景知识是一样的。所以解决办法就是导入了所有含该主题的消息。也就是说,把与主题相关的消息分词成一个词向量(TFIDF表示数值),也就是用更多的词来表示该主题。这样帮助词聚类。3选出流行度比较高的微博。(这个模块略去)
2、面向海量高维数据的文本主题发现。 这篇文章更贴近我们的需求做社会舆情分析。论文里面引言中有一段话我觉得总结的很好。针对积累了海量数据社交网络,学者对其的研究主要分两块:一类研究称为观点挖掘及情感分析,主要通过收集用户在社交网络中所产生的大量评论数据,进而挖掘含在文本背后用户的观点及表现的情感。另一类侧重在社交网络中的话题检测,试图从社交网络蕴含的海量文本数据中挖掘出某阶段的热点事件。我现在要搭建的系统更偏重于后者。