1.数据获取-通过网络爬虫实现 |
网络爬虫利用 java 技术,可以通过 htmlparse +httpclient 或者直接 |
利用 java 正则+URL 实现。文中实现使用后者。过程中保存爬下 |
来的页面可实现 BBS 快照功能。当然快照也可以可以 java 的其它 |
技术将网页直接保存为图片。 |
2.数据预处理-中文分词系统实现 |
分词系统可使用中科院的中文分词系统 ICTCLAS。分词后如果发 |
现一些词在敏感词汇表则定为敏感词。 |
地址为http://ictclas.nlpir.org/downloads
点击打开链接
3.数据分析处理-文本向量化上一阶段的输出结果,然后可以利用 |
数据挖掘算法发掘热点。 |
利用 df-idf 文本向量化文档,其结果可以作为数据挖掘算法的输 |
入,本文数据挖掘算法采用 kmeans。 |
项目源码 可以资源中下载。