大数据
痛快最重要
计算机小白
展开
-
Hadoop WordCount统计小说每个字的出现的次数并排序
闲来无事,想看看小说中的什么字出现的频率比较高,就改了一下WordCount的程序。原理: 主要的核心就是WordCount,那就先说下WordCount。WordCount: Map: 对每一行的输入,扫描到一个单词就将key设置为这个字符,将value设置为1。Combiner: 将同一个key中的链表中的value进行求和求出暂时这个字符的次数,key不变...原创 2019-08-12 15:45:11 · 3788 阅读 · 0 评论 -
java实现kmeans
数据说明:选用的数据是自己生成的随机的二维的点集,两千行数据,格式为"x,y":最后的结果是将这些点聚集为了三类,前面是每一个点的类号。思路很简单:1.初始化 1.1先把数据集中的点的坐标读入到一个二维数组中 1.2并选择前面的三个点作为初始的中心点。2.迭代部分 2.1 对每个点分别计算到三个中心点的距离,并根据最小的距离给点分类 2.2 对每...原创 2019-05-18 14:15:03 · 1887 阅读 · 0 评论 -
MapReduce实现kmeans算法
先来介绍一下kmeans算法的思想:(以下是我自己的理解): 1.先随机选取几个中心点作为初始的中心点 2.然后根据每个点到这些点的距离远近,找到最近的那个点作为它的中心点,将这些点进行分类。 3.计算每一类的点形成的新的中心点。重复2,3步。hadoop中mapreduce的代码我分成了4部分,是有一点的繁琐,但是比较好理解。第一部分:kmeansInit:这部...原创 2019-05-17 23:29:48 · 8643 阅读 · 8 评论
分享