文本挖掘
gaoloudushang
让夏天来的更猛烈些吧。
展开
-
TF-IDF java实现
最近在学习推荐系统,在文本分类中要得到特征词,首先要获取tf-idf模型,搜索中也会用到tf-idf,有必要深入学习。首先来简单回顾一下tf-idf.词频(TF)=某个词在文章中出现的次数词频(TF)=某个词在文章中出现的次数/文章的总词数或者:词频(TF)=某个词在文章中出现的次数/该文出现次数最多的词的出现次数逆文档率:TF-IDF:TF-IDF转载 2014-08-11 22:05:12 · 1202 阅读 · 0 评论 -
论坛热点发现系统
.数据获取-通过网络爬虫实现网络爬虫利用 java 技术,可以通过 htmlparse +httpclient 或者直接利用 java 正则+URL 实现。文中实现使用后者。过程中保存爬下来的页面可实现 BBS 快照功能。当然快照也可以可以 java 的其它原创 2014-08-11 22:10:51 · 996 阅读 · 0 评论