mahout
文章平均质量分 80
sofuzi
这个作者很懒,什么都没留下…
展开
-
Mahout 命令
转载于:http://bit1129.iteye.com/blog/22137081. mahout seqdirectory 生成序列文件Java代码 $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) outpu...转载 2018-04-11 19:10:12 · 690 阅读 · 0 评论 -
Mahout TF-IDF向量化源码解析
转载于:http://www.cnblogs.com/fesh/p/3775429.html一、原理TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者...转载 2018-05-11 18:17:24 · 188 阅读 · 0 评论 -
【甘道夫】通过Mahout构建贝叶斯文本分类器案例详解
转载于:https://blog.csdn.net/u010967382/article/details/25368795背景&目标:1、sport.tar 是体育类的文章,一共有10个类别; 用这些原始材料构造一个体育类的文本分类器,并测试对比bayes和cbayes的效果; 记录分类器的构造过程和测试结果。2、user-sport.tar 是用户浏览的文章,每个文件夹对应一个用...转载 2018-05-24 18:11:54 · 422 阅读 · 0 评论