mapreduce
痛快最重要
计算机小白
展开
-
MapReduce实现kmeans算法
先来介绍一下kmeans算法的思想:(以下是我自己的理解): 1.先随机选取几个中心点作为初始的中心点 2.然后根据每个点到这些点的距离远近,找到最近的那个点作为它的中心点,将这些点进行分类。 3.计算每一类的点形成的新的中心点。重复2,3步。hadoop中mapreduce的代码我分成了4部分,是有一点的繁琐,但是比较好理解。第一部分:kmeansInit:这部...原创 2019-05-17 23:29:48 · 8499 阅读 · 8 评论 -
Hadoop WordCount统计小说每个字的出现的次数并排序
闲来无事,想看看小说中的什么字出现的频率比较高,就改了一下WordCount的程序。原理: 主要的核心就是WordCount,那就先说下WordCount。WordCount: Map: 对每一行的输入,扫描到一个单词就将key设置为这个字符,将value设置为1。Combiner: 将同一个key中的链表中的value进行求和求出暂时这个字符的次数,key不变...原创 2019-08-12 15:45:11 · 3681 阅读 · 0 评论