1、微博数据蕴含着很多实况信息,通过爬虫等技术手段采集后,对内容的主题进行数据分析,从而得到大众的关注热点。如图1为基于主题模型得到的台风“莫兰蒂”相关微博数据进行主题分类后的统计图。在图1中,我们可以看到通过LDA模型得到的不同类别的微博数据的走势,作者将微博数据分为了“预警信息”、“无关信息”、“灾情和实况信息”和“救援信息”四类。通过不同信息数据的时间序列,可以快速把握事件发生的趋势。
配合TF-IDF算法,点击各个时间节点,可以抽取不同时间点的关键词信息,可以更加准确的事件的趋势。如图2所示。
关键词反映了这一阶段的优势信息,想更进一步的查看详细信息,需要获取全文,点击对应的关键词,即可查看全文信息(图3)。
点击定位按钮可以查看事件发生的具体位置,从而对事件进行快速定位(图4)。
主题信息分布图(图5),查看事件的主题信息。
2、新闻推荐系统
3、文章摘要的主题演化(挖掘近年来研究领域的变化)
4、等等文本数据挖掘领域,LDA都是一个优秀的模型,在各类文本挖掘领域均有应用,是很多研究领域与大数据结合进行写paper的利器。
作者联系方式QQ:869647405 。 有不懂的可以联系作者进行有偿技术协助。