(http://youzitool.com 新博客,欢迎访问)
这几天一直在忙着找暑假实习,实在没精力来写新的文章。刚好这几天放假,我把前几天做了的另一个例子拿出来跟大家分享一下。
这个例子是使用hadoop来实现TF-IDF。
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。具体的信息就麻烦大家自己百度一下了。
因为要实现的细节比较多,所以我直接将代码放上来。大家可以参看代码里面的注释,我写的比较详细。
我采用了两个MapReduce任务顺序执行来实现TF-IDF功能。