python开发MR
文章平均质量分 77
西瓜和葡萄
这个作者很懒,什么都没留下…
展开
-
python开发MapReduce
启动类run.shhadoop fs -rmr -skipTrash /test/outhadoop jar /usr/local/src/hadoop-2.6.0/share/hadoop/tools/lib/hadoop-streaming-2.6.0.jar \ -input "/test/1.data" \ -output "/test/out" \ -mapper "p...原创 2018-07-10 17:20:15 · 495 阅读 · 0 评论 -
python开发TFIDF值
数据处理过程中很多情况需要对某个信息进行打分,判断这个信息字段的重要行,这里拿文章的单词进行距离,获取TFIDF值。TFIDF打分:某个词对文章重要性1、TF:一个词在文章中出现的次数2、IDF:反文档频率词频(TF ):某个词在文章中出现的次数: 词频(TF )=某个词在文章中出现的次数/文章的总词数 词频(TF )=某个词在文章中出现的次数/该文出现次数最多...原创 2018-07-12 17:37:17 · 1220 阅读 · 0 评论