微博由于其“短平快”的信息生产能力和快速传播能力,已经广泛流行于高校学生的日常生活中。但微博上的负面舆情信息给社会、学校和个人带来巨大的危害。由于微博的多而快特点,无法依赖人工对相关信息进行收集、筛选和发掘热点话题。因此研究并开发校园微博热点话题发现系统,对高校舆情工作有重要的意义。
本文从微博独有的短文本特征及国内外相关微博研究出发,通过对校园微博进行分类处理后使用K-means聚类算法对校园微博短文本聚类,并改进热度计算公式,通过话题热度提取校园微博热点话题,实现对校园微博热点话题的监控。本文通过几个模块设计并实现了校园微博热点话题发现系统,包括微博数据爬取模块、微博数据预处理模块、微博热点话题分析模块、微博热点话题展示模块等模块。最后以广州中医药大学的生活类微博—广中医I栋为研究对象,对校园微博各模块功能及相关技术进行介绍,并对相关模块进行测试验证,分析校园微博热点话题特点,总结系统的优点和不足,提出下一步改进的设想。
关键词:校园微博K-means热点话题
ABSTRACT
ABSTRACT
Becauseofits"short